Zing 论坛

正文

Activation Replay:无需训练即可提升多模态大模型推理能力的新方法

新加坡国立大学团队提出Activation Replay技术,通过测试时操控视觉token,将基础模型的低熵激活重播到RLVR训练后的模型中,在数学推理、视觉代理和视频推理等任务上实现显著提升,且无需额外的策略优化训练。

多模态大模型推理能力Activation ReplayRLVRCVPR 2026免训练方法激活重播
发布时间 2026/05/07 16:41最近活动 2026/05/07 16:47预计阅读 2 分钟
Activation Replay:无需训练即可提升多模态大模型推理能力的新方法
1

章节 01

导读:Activation Replay——免训练提升多模态大模型推理能力的新方法

新加坡国立大学团队提出Activation Replay技术,通过测试时操控视觉token,将基础模型的低熵激活重播到RLVR训练后的模型中,在数学推理、视觉代理和视频推理等任务上实现显著提升,且无需额外的策略优化训练。该方法为多模态大模型推理能力提升开辟了新路径。

2

章节 02

研究背景:RLVR机制探索与低熵激活的关键发现

近年来,基于可验证奖励的强化学习(RLVR)是提升大型多模态模型(LMMs)推理能力的有效方法,但内在机制不明。新加坡国立大学团队通过logit lens分析发现:RLVR会改变低熵激活分布,高熵激活相对稳定;低熵激活的偏移与模型推理能力提升密切相关,这为后续方法设计提供了方向。

3

章节 03

方法详解:Activation Replay的原理与技术实现

Activation Replay是一种免训练方法,核心原理为:测试时操控视觉token,将基础模型(未RLVR训练)的低熵激活重播到RLVR训练后的模型中。步骤包括提取基础模型低熵激活、推理时注入、无需策略优化。对比实验验证:低熵激活效果优于高熵,操控输入token方式更优雅有效。

4

章节 04

实验证据:Activation Replay在多任务中的性能表现

Activation Replay在多任务中效果显著:1.数学推理:提升复杂问题解题准确率;2.类o3视觉代理:改善复杂环境决策质量;3.视频推理:增强时序逻辑与因果关系捕捉;4.指标提升:Pass@K显著提高,缓解RLVR导致的推理覆盖度收窄问题。

5

章节 05

结论与优势:Activation Replay的价值与应用前景

Activation Replay的优势包括:免训练(降低部署成本)、通用性强(适用于多种模型与任务)、即插即用(易集成现有流程)、可解释性(基于激活模式理解)。该方法不仅提升模型性能,还为理解LMM推理机制提供新视角,将在多模态AI应用中发挥重要作用。

6

章节 06

开源资源:代码开放与社区影响

研究团队已将Activation Replay代码开源至GitHub(latentcraft/replay),为学术界和工业界进一步研究提供宝贵资源,标志着多模态模型推理优化领域的重要进展。