# TARS：用强化学习弥合语音大模型的推理鸿沟

> TARS通过非对称奖励设计和轨迹对齐技术，有效解决了语音大模型在推理任务上远弱于文本模态的问题，在MMSU和OBQA等基准测试上达到7B规模模型的最佳性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-17T14:11:49.000Z
- 最近活动: 2026-04-17T14:18:38.469Z
- 热度: 148.9
- 关键词: 语音大模型, 强化学习, 多模态推理, GRPO, 表征对齐, Speech LLM, ACL 2026
- 页面链接: https://www.zingnex.cn/forum/thread/tars
- Canonical: https://www.zingnex.cn/forum/thread/tars
- Markdown 来源: ingested_event

---

# TARS：用强化学习弥合语音大模型的推理鸿沟\n\n语音大语言模型（Speech LLM）近年来发展迅猛，但一个核心痛点始终存在：当面对需要多步推理的复杂任务时，语音输入的表现明显弱于纯文本输入。这种**模态推理鸿沟**（Modality Reasoning Gap）严重制约了语音AI在教育和专业场景中的应用。\n\n近日，来自Amphion团队的研究者在ACL 2026发表的最新工作TARS（Trajectory Alignment for Reasoning in Speech），通过创新的强化学习框架成功缩小了这一差距，在MMSU和OBQA等挑战性推理基准上取得了7B规模模型的最佳性能。\n\n## 问题根源：表征漂移与行为偏差\n\n研究团队深入分析了语音大模型推理能力不足的内在机理，发现主要存在两大障碍。\n\n首先是**表征漂移**（Representational Drift）。在Transformer的多层结构中，语音模态的隐藏状态表示会随着层数加深而逐渐偏离文本模态的对应表示。这种漂移导致模型在处理语音输入时，难以复用其在文本训练中学到的推理模式。\n\n其次是**行为偏差**（Behavior Deviation）。在长链推理过程中，语音条件生成的响应与文本条件生成的参考响应之间存在语义不一致，表现为推理路径的分化和最终答案质量的下降。\n\n## 核心方法：非对称轨迹对齐\n\nTARS的核心创新在于提出了一种**非对称奖励设计**（Asymmetric Reward Design）。与传统方法将文本作为静态教师信号不同，TARS将文本模态视为动态参考系，允许语音模态与不断优化的文本推理轨迹协同进化。\n\n具体而言，框架整合了两种互补的密集奖励信号：\n\n### 表征对齐（Representation Alignment）\n\n通过计算语音条件和文本条件轨迹在各Transformer层的隐藏状态余弦相似度，TARS能够量化并最小化表征漂移。这种层级的细粒度对齐确保了语音表示在深度网络中保持与文本表示的一致性。\n\n### 行为对齐（Behavior Alignment）\n\n利用Qwen3-Embedding-0.6B模型评估生成输出与参考文本完成之间的语义一致性，TARS引导语音模型的推理行为向文本模态靠拢，而非强制其复制具体的文本token序列。\n\n## 技术实现：GRPO训练框架\n\nTARS采用**群体相对策略优化**（Group Relative Policy Optimization, GRPO）作为核心训练算法。GRPO的优势在于能够从稀疏奖励中学习，并通过自探索机制发现更优的推理策略。\n\n项目代码基于ms-swift框架构建，支持分布式训练。训练流程包括数据构建、偏好对生成和强化学习三个阶段。值得注意的是，团队开源了完整的MMLU训练数据集（含合成音频），为社区复现提供了坚实基础。\n\n## 实验结果：显著缩小模态差距\n\n在MMSU（多模态多选理解）和OBQA（开放域问答）等挑战性推理基准上，TARS展现出强劲性能：\n\n- 相比基线模型，语音推理准确率大幅提升\n- 在7B规模Speech LLM中达到最佳水平\n- 同时保持了文本模态的原有能力，未出现性能退化\n\n这些结果证明了非对称对齐策略的有效性——语音模态不需要完全模仿文本，而是找到与文本推理轨迹和谐共进的优化路径。\n\n## 开源生态与模型权重\n\nTARS团队积极拥抱开源，已发布基于Qwen2.5-Omni-7B的完整模型权重（HuggingFace: yuantuo666/TARS-Qwen2.5-Omni-7B）。代码仓库包含完整的训练脚本、评估工具和推理示例，支持Phi-4-Multimodal等主流多模态架构。\n\n对于希望复现或扩展该工作的研究者，项目提供了详细的环境配置指南和数据集构建脚本。训练需要至少1块A100（80GB）进行推理，8块A100用于分布式GRPO训练。\n\n## 启示与展望\n\nTARS的成功为语音大模型的发展提供了重要启示：模态间的差距并非不可逾越，关键在于找到合适的对齐策略。非对称奖励设计打破了"文本教师-语音学生"的传统范式，开创了一种更加灵活的协同进化路径。\n\n未来，这种轨迹对齐思想有望扩展到更多模态组合（如视觉-语音、视频-音频），推动真正的多模态统一智能。对于追求端到端语音交互体验的开发者而言，TARS代表了当前技术前沿的重要里程碑。