# F5-TTS-DPS：通过EMA稳定训练与双评分提示选择实现难以检测的高自然度语音合成

> 本文介绍WildSpoof 2026挑战赛TTS赛道的获胜方案F5-TTS-DPS，该模型在F5-TTS架构基础上引入指数移动平均（EMA）和基于LLM/LALM的双评分提示选择机制，在三个先进SASV检测系统上取得最佳a-DCF分数，生成的合成语音自然度极高且难以被检测识别。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-22T17:18:50.000Z
- 最近活动: 2026-05-25T06:18:48.380Z
- 热度: 83.0
- 关键词: TTS, 语音合成, 反欺骗检测, EMA, 提示选择, WildSpoof, F5-TTS, 深度伪造, 语音安全
- 页面链接: https://www.zingnex.cn/forum/thread/f5-tts-dps-ema
- Canonical: https://www.zingnex.cn/forum/thread/f5-tts-dps-ema
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection -- Submission for WildSpoof 2026 TTS Track
- 原始链接：http://arxiv.org/abs/2605.23859v1
- 来源发布时间/更新时间：2026-05-22T17:18:50Z

## 原作者与来源\n\n- **原作者/团队**：WildSpoof 2026 TTS赛道参赛团队（基于F5-TTS架构）\n- **来源平台**：arXiv\n- **原文标题**：Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection\n- **原文链接**：http://arxiv.org/abs/2605.23859v1\n- **发布时间**：2026年5月22日\n\n---\n\n## 背景：语音合成与反欺骗检测的军备竞赛\n\n近年来，文本到语音（Text-to-Speech, TTS）技术取得了突破性进展。从早期的拼接合成到如今的端到端神经网络模型，合成语音的自然度已经大幅提升，甚至在某些场景下接近真人水平。然而，这一技术进步也带来了新的安全挑战——深度伪造（Deepfake）语音的泛滥。\n\n为了应对这一威胁，语音反欺骗（Spoofing Countermeasure）技术应运而生。研究人员开发了各种说话人验证和反欺骗系统（SASV, Speaker Verification and Spoofing Countermeasure），试图区分真实人声与合成语音。但这场技术竞赛远未结束：每当检测系统升级，更先进的TTS模型便会寻找新的突破口。\n\nWildSpoof挑战赛正是这一博弈的集中体现。该赛事要求参赛者在真实场景数据（in-the-wild）上训练TTS模型，目标是生成既自然又难以被现有检测系统识别的合成语音。本文介绍的F5-TTS-DPS方案，正是在这一背景下诞生的优胜方案。\n\n---\n\n## 技术方案概览\n\nF5-TTS-DPS建立在F5-TTS架构之上，引入了两大核心创新：\n\n### 1. 指数移动平均（EMA）增强监督微调\n\n传统的监督微调（Supervised Fine-Tuning, SFT）在训练过程中容易产生参数震荡，尤其是在面对真实场景中的噪声数据时，模型泛化能力受限。F5-TTS-DPS引入了指数移动平均（Exponential Moving Average, EMA）技术来稳定训练过程。\n\nEMA的核心思想是：在训练过程中，不仅维护当前迭代的模型参数，还维护一个平滑后的参数副本。这个副本是历史参数的加权平均，权重随时间指数衰减。数学表达为：\n\n```\nθ_EMA(t) = α · θ_EMA(t-1) + (1-α) · θ(t)\n```\n\n其中，α是衰减系数（通常接近1），θ(t)是当前参数，θ_EMA(t)是平滑后的参数。这种方法有效抑制了训练过程中的噪声扰动，使模型在收敛到更稳定的局部最优解的同时，提升了在分布外数据上的泛化能力。\n\n### 2. 双评分提示选择机制\n\n真实场景的语音数据往往质量参差不齐，包含背景噪声、录音设备差异、口音变化等问题。如果直接使用这些低质量的参考音频和文本提示进行训练，会严重影响合成语音的保真度。\n\nF5-TTS-DPS提出了一种创新的双评分提示选择策略，同时利用大型语言模型（LLM）和大型音频语言模型（LALM）对候选提示进行质量评估：\n\n- **LLM评分**：评估文本提示的语法正确性、语义完整性和表达自然度\n- **LALM评分**：评估参考音频的声学质量、清晰度、与文本的对齐程度\n\n只有同时通过两个评分阈值的提示才会被纳入训练集。这种双重过滤机制确保了训练数据的高质量，有效解决了噪声数据集中的对齐问题。\n\n---\n\n## 实验结果与关键发现\n\nF5-TTS-DPS在WildSpoof 2026的开发集上取得了以下性能指标：\n\n| 指标 | 数值 | 说明 |\n|------|------|------|\n| UTMOS | 3.20 | 语音自然度评分，越高越自然 |\n| 说话人相似度 | 0.51 | 合成语音与目标说话人的相似度 |\n| WER | 竞争性水平 | 词错误率，反映发音准确度 |\n\n然而，真正令人瞩目的是该模型在反欺骗检测上的表现。在三个先进的SASV检测系统上，F5-TTS-DPS取得了以下a-DCF（实际检测代价函数）分数：\n\n| 检测系统 | a-DCF分数 | 排名 |\n|----------|-----------|------|\n| 系统1 | 0.1582 | 第1名 |\n| 系统2 | 0.5233 | 第1名 |\n| 系统3 | 0.2562 | 第1名 |\n\na-DCF是反欺骗领域的重要指标，它综合考虑了漏检率和误检率，数值越低表示欺骗成功率越高（即越难被检测）。F5-TTS-DPS在所有三个系统上都取得了最佳成绩，这表明其生成的合成语音具有极高的"欺骗性"——既自然流畅，又能有效规避现有检测手段。\n\n---\n\n## 技术洞察与意义\n\n这项研究揭示了语音合成领域的一个重要趋势：**自然度与欺骗性之间的界限正在模糊**。传统的观点认为，提升合成语音的自然度可能会增加被检测的风险，因为更完美的语音反而显得"不真实"。但F5-TTS-DPS的结果表明，通过精心设计的训练策略，可以在保持高自然度的同时，实现更强的对抗性。\n\n从技术角度看，EMA的稳定化作用和双评分机制的数据筛选能力是关键。EMA使模型能够更好地学习真实语音的分布特征，而不是过度拟合训练数据中的噪声；双评分机制则确保了模型学习到的始终是高质量的语音-文本映射关系。\n\n从应用角度看，这一研究具有双重意义：\n\n1. **积极方面**：为高质量的个性化语音合成提供了新思路，有助于开发更自然的语音助手、有声读物和辅助沟通工具\n2. **安全挑战**：提醒我们必须加快反欺骗技术的研究步伐，现有的检测系统可能不足以应对新一代TTS模型的威胁\n\n---\n\n## 结语与展望\n\nF5-TTS-DPS在WildSpoof 2026挑战赛中的优异表现，标志着语音合成技术进入了一个新的阶段。通过EMA稳定训练和双评分提示选择，该模型成功地在自然度和欺骗性之间找到了平衡点。\n\n未来，我们可以期待看到更多类似的技术创新。同时，这也对语音安全领域提出了更高要求——检测系统需要不断进化，以应对日益逼真的合成语音威胁。这场技术博弈将继续推动两个领域的共同进步。
