Zing 论坛

正文

TARS:用强化学习弥合语音大模型的推理鸿沟

TARS通过非对称奖励设计和轨迹对齐技术,有效解决了语音大模型在推理任务上远弱于文本模态的问题,在MMSU和OBQA等基准测试上达到7B规模模型的最佳性能。

语音大模型强化学习多模态推理GRPO表征对齐Speech LLMACL 2026
发布时间 2026/04/17 22:11最近活动 2026/04/17 22:18预计阅读 2 分钟
TARS:用强化学习弥合语音大模型的推理鸿沟
1

章节 01

TARS:用强化学习弥合语音大模型的推理鸿沟(导读)

语音大语言模型(Speech LLM)在复杂推理任务中表现远弱于文本模态,存在“模态推理鸿沟”。Amphion团队在ACL 2026发表的TARS(Trajectory Alignment for Reasoning in Speech)通过非对称奖励设计和轨迹对齐技术,有效解决该问题,在MMSU和OBQA等基准测试上取得7B规模模型最佳性能。

2

章节 02

问题根源:表征漂移与行为偏差

语音大模型推理能力不足的内在机理主要有两点:1. 表征漂移:Transformer多层结构中,语音模态隐藏状态随层数加深偏离文本模态对应表示,难以复用文本推理模式;2. 行为偏差:长链推理时,语音条件生成响应与文本参考响应语义不一致,导致推理路径分化和答案质量下降。

3

章节 03

核心方法:非对称轨迹对齐

TARS的核心创新是非对称奖励设计,将文本模态视为动态参考系,让语音模态与优化的文本推理轨迹协同进化。包含两种密集奖励信号:1. 表征对齐:计算语音与文本轨迹各Transformer层隐藏状态余弦相似度,最小化表征漂移;2. 行为对齐:用Qwen3-Embedding-0.6B评估生成输出与参考文本的语义一致性,引导语音模型推理行为向文本靠拢。

4

章节 04

技术实现:GRPO训练框架

TARS采用**群体相对策略优化(GRPO)**作为核心训练算法,能从稀疏奖励中学习并自探索更优推理策略。项目基于ms-swift框架构建,支持分布式训练,流程含数据构建、偏好对生成和强化学习三阶段。团队开源了完整MMLU训练数据集(含合成音频),方便社区复现。

5

章节 05

实验结果:7B规模模型最佳性能

在MMSU(多模态多选理解)和OBQA(开放域问答)等推理基准上,TARS表现显著:相比基线模型,语音推理准确率大幅提升;在7B规模Speech LLM中达到最佳水平;同时保持文本模态原有能力,无性能退化。证明非对称对齐策略有效,语音无需完全模仿文本,可与文本推理轨迹协同优化。

6

章节 06

开源生态:模型权重与资源发布

TARS团队开源了基于Qwen2.5-Omni-7B的完整模型权重(HuggingFace地址:yuantuo666/TARS-Qwen2.5-Omni-7B)。代码仓库包含训练脚本、评估工具和推理示例,支持Phi-4-Multimodal等主流架构。复现需至少1块A100(80GB)推理,8块A100分布式训练,项目提供环境配置和数据集构建指南。

7

章节 07

启示与展望:多模态智能的新路径

TARS的成功表明模态差距可通过合适对齐策略逾越,非对称奖励设计打破“文本教师-语音学生”传统范式,开创协同进化路径。未来该思想有望扩展到视觉-语音、视频-音频等更多模态组合,推动多模态统一智能发展,为端到端语音交互提供前沿技术支持。