正文

TARS：用强化学习弥合语音大模型的推理鸿沟

TARS通过非对称奖励设计和轨迹对齐技术，有效解决了语音大模型在推理任务上远弱于文本模态的问题，在MMSU和OBQA等基准测试上达到7B规模模型的最佳性能。

语音大模型强化学习多模态推理GRPO表征对齐Speech LLMACL 2026

发布时间 2026/04/17 22:11最近活动 2026/04/17 22:18预计阅读 2 分钟

章节 01

TARS：用强化学习弥合语音大模型的推理鸿沟（导读）

语音大语言模型（Speech LLM）在复杂推理任务中表现远弱于文本模态，存在“模态推理鸿沟”。Amphion团队在ACL 2026发表的TARS（Trajectory Alignment for Reasoning in Speech）通过非对称奖励设计和轨迹对齐技术，有效解决该问题，在MMSU和OBQA等基准测试上取得7B规模模型最佳性能。

章节 02

问题根源：表征漂移与行为偏差

语音大模型推理能力不足的内在机理主要有两点：1. 表征漂移：Transformer多层结构中，语音模态隐藏状态随层数加深偏离文本模态对应表示，难以复用文本推理模式；2. 行为偏差：长链推理时，语音条件生成响应与文本参考响应语义不一致，导致推理路径分化和答案质量下降。

章节 03

核心方法：非对称轨迹对齐

TARS的核心创新是非对称奖励设计，将文本模态视为动态参考系，让语音模态与优化的文本推理轨迹协同进化。包含两种密集奖励信号：1. 表征对齐：计算语音与文本轨迹各Transformer层隐藏状态余弦相似度，最小化表征漂移；2. 行为对齐：用Qwen3-Embedding-0.6B评估生成输出与参考文本的语义一致性，引导语音模型推理行为向文本靠拢。

章节 04

技术实现：GRPO训练框架

TARS采用**群体相对策略优化（GRPO）**作为核心训练算法，能从稀疏奖励中学习并自探索更优推理策略。项目基于ms-swift框架构建，支持分布式训练，流程含数据构建、偏好对生成和强化学习三阶段。团队开源了完整MMLU训练数据集（含合成音频），方便社区复现。

章节 05

实验结果：7B规模模型最佳性能

在MMSU（多模态多选理解）和OBQA（开放域问答）等推理基准上，TARS表现显著：相比基线模型，语音推理准确率大幅提升；在7B规模Speech LLM中达到最佳水平；同时保持文本模态原有能力，无性能退化。证明非对称对齐策略有效，语音无需完全模仿文本，可与文本推理轨迹协同优化。

章节 06

开源生态：模型权重与资源发布

TARS团队开源了基于Qwen2.5-Omni-7B的完整模型权重（HuggingFace地址：yuantuo666/TARS-Qwen2.5-Omni-7B）。代码仓库包含训练脚本、评估工具和推理示例，支持Phi-4-Multimodal等主流架构。复现需至少1块A100（80GB）推理，8块A100分布式训练，项目提供环境配置和数据集构建指南。

章节 07