Zing 论坛

正文

开放式测试时强化学习:OP-TTRAV在多模态音频语言模型中的创新实践

OP-TTRAV项目将测试时强化学习(TTRL)扩展到开放式音视频问答场景,在Qwen2.5-Omni-3B模型上实现了无需标注数据的自我改进能力。

测试时强化学习TTRL多模态音频语言模型开放式问答自我改进Qwen2.5-OmniVERL嵌入相似度聚类投票
发布时间 2026/05/18 08:34最近活动 2026/05/18 08:50预计阅读 2 分钟
开放式测试时强化学习:OP-TTRAV在多模态音频语言模型中的创新实践
1

章节 01

导读:OP-TTRAV——开放式测试时强化学习在多模态音频语言模型中的创新实践

OP-TTRAV项目将测试时强化学习(TTRL)扩展到开放式音视频问答场景,在Qwen2.5-Omni-3B模型上实现无需标注数据的自我改进能力,为测试时计算开辟新可能性。该项目通过创新奖励机制解决开放式问答挑战,推动多模态AI自我进化。

2

章节 02

背景:测试时强化学习(TTRL)的核心思想

范式迁移

传统强化学习(RL)聚焦训练阶段策略优化,而TTRL将学习推迟到推理阶段:生成多个候选回答,通过奖励机制评估质量并优化输出。

优势

  • 无需标注数据:奖励来自规则、模型自身或环境反馈
  • 即时适应:动态调整推理策略
  • 计算换智能:增加测试时计算提升输出质量

数学推理应用

TTRL在数学推理任务中展现潜力,通过生成多解答并以正确性为奖励筛选高质量路径,在AIME等数据集效果显著。

3

章节 03

方法:OP-TTRAV的创新与四种奖励模式

开放式问答挑战

  • 答案正确性判定困难
  • 奖励信号设计复杂
  • 多模态信息融合复杂

四种奖励模式

  1. 多数投票模式:生成多回答,频率最高答案获高奖励(适用于封闭题)
  2. 嵌入质心相似度:候选回答转语义向量,与质心余弦相似度为奖励
  3. LLM-as-Judge模式:模型自身对候选回答评分(基于与质心语义接近度)
  4. 聚类投票模式:K-means聚类最大簇内回答获奖励(含简单/连续变体)
4

章节 04

技术实现:基于VERL框架的工程细节

框架扩展

构建于火山引擎VERL框架,扩展奖励计算模块支持四种模式切换(通过TTRL_TASK_TYPE环境变量)。

编码器选择

支持BGE-small(轻量)、Qwen3-Embedding-4B(大容量)、MPNet(语义敏感),通过TTRL_OE_ENCODER控制。

超参数调优

可调参数包括聚类数量范围、编码器设备、最大序列长度、辅助评估(BLEU/ROUGE-L)、GPT评判等。

5

章节 05

实验设置:多模态基准测试与目标

测试数据集

  • MMAU(多模态音频理解)
  • Daily QA(日常视频问答)
  • UltraFeedback(文本指令遵循)

基线目标

在AlpacaEval 2.0的LC Win Rate指标上:

  • 基础模型:5-15%
  • SFT:30-40%
  • DPO:40-55% 目标:无标注数据下超越SFT/DPO性能。
6

章节 06

技术意义:降低标注依赖与多模态自我改进

降低标注成本

无需人工标注数据提升性能,适用于医疗、法律等标注昂贵领域。

测试时扩展定律

通过增加测试时计算(多候选生成、复杂评估)提升输出质量,补充模型规模扩展理念。

多模态自我改进

将TTRL扩展到音视频问答,为多模态智能体持续进化奠定基础。

7

章节 07

局限性与未来方向

局限性

  • 计算开销:推理阶段生成多候选增加成本
  • 奖励黑客:模型可能生成高分低质回答
  • 评估可靠性:语义相似度奖励的有效性待验证

未来方向

  • 训练专门评判模型替代嵌入相似度
  • 结合MCTS等搜索算法探索推理空间
  • 动态调整候选生成数量
  • 利用跨模态一致性作为奖励信号