章节 01
TARS:用强化学习弥合语音大模型的推理鸿沟(导读)
语音大语言模型(Speech LLM)在复杂推理任务中表现远弱于文本模态,存在“模态推理鸿沟”。Amphion团队在ACL 2026发表的TARS(Trajectory Alignment for Reasoning in Speech)通过非对称奖励设计和轨迹对齐技术,有效解决该问题,在MMSU和OBQA等基准测试上取得7B规模模型最佳性能。
正文
TARS通过非对称奖励设计和轨迹对齐技术,有效解决了语音大模型在推理任务上远弱于文本模态的问题,在MMSU和OBQA等基准测试上达到7B规模模型的最佳性能。
章节 01
语音大语言模型(Speech LLM)在复杂推理任务中表现远弱于文本模态,存在“模态推理鸿沟”。Amphion团队在ACL 2026发表的TARS(Trajectory Alignment for Reasoning in Speech)通过非对称奖励设计和轨迹对齐技术,有效解决该问题,在MMSU和OBQA等基准测试上取得7B规模模型最佳性能。
章节 02
语音大模型推理能力不足的内在机理主要有两点:1. 表征漂移:Transformer多层结构中,语音模态隐藏状态随层数加深偏离文本模态对应表示,难以复用文本推理模式;2. 行为偏差:长链推理时,语音条件生成响应与文本参考响应语义不一致,导致推理路径分化和答案质量下降。
章节 03
TARS的核心创新是非对称奖励设计,将文本模态视为动态参考系,让语音模态与优化的文本推理轨迹协同进化。包含两种密集奖励信号:1. 表征对齐:计算语音与文本轨迹各Transformer层隐藏状态余弦相似度,最小化表征漂移;2. 行为对齐:用Qwen3-Embedding-0.6B评估生成输出与参考文本的语义一致性,引导语音模型推理行为向文本靠拢。
章节 04
TARS采用**群体相对策略优化(GRPO)**作为核心训练算法,能从稀疏奖励中学习并自探索更优推理策略。项目基于ms-swift框架构建,支持分布式训练,流程含数据构建、偏好对生成和强化学习三阶段。团队开源了完整MMLU训练数据集(含合成音频),方便社区复现。
章节 05
在MMSU(多模态多选理解)和OBQA(开放域问答)等推理基准上,TARS表现显著:相比基线模型,语音推理准确率大幅提升;在7B规模Speech LLM中达到最佳水平;同时保持文本模态原有能力,无性能退化。证明非对称对齐策略有效,语音无需完全模仿文本,可与文本推理轨迹协同优化。
章节 06
TARS团队开源了基于Qwen2.5-Omni-7B的完整模型权重(HuggingFace地址:yuantuo666/TARS-Qwen2.5-Omni-7B)。代码仓库包含训练脚本、评估工具和推理示例,支持Phi-4-Multimodal等主流架构。复现需至少1块A100(80GB)推理,8块A100分布式训练,项目提供环境配置和数据集构建指南。
章节 07
TARS的成功表明模态差距可通过合适对齐策略逾越,非对称奖励设计打破“文本教师-语音学生”传统范式,开创协同进化路径。未来该思想有望扩展到视觉-语音、视频-音频等更多模态组合,推动多模态统一智能发展,为端到端语音交互提供前沿技术支持。