章节 01
导读:Activation Replay——免训练提升多模态大模型推理能力的新方法
新加坡国立大学团队提出Activation Replay技术,通过测试时操控视觉token,将基础模型的低熵激活重播到RLVR训练后的模型中,在数学推理、视觉代理和视频推理等任务上实现显著提升,且无需额外的策略优化训练。该方法为多模态大模型推理能力提升开辟了新路径。
正文
新加坡国立大学团队提出Activation Replay技术,通过测试时操控视觉token,将基础模型的低熵激活重播到RLVR训练后的模型中,在数学推理、视觉代理和视频推理等任务上实现显著提升,且无需额外的策略优化训练。
章节 01
新加坡国立大学团队提出Activation Replay技术,通过测试时操控视觉token,将基础模型的低熵激活重播到RLVR训练后的模型中,在数学推理、视觉代理和视频推理等任务上实现显著提升,且无需额外的策略优化训练。该方法为多模态大模型推理能力提升开辟了新路径。
章节 02
近年来,基于可验证奖励的强化学习(RLVR)是提升大型多模态模型(LMMs)推理能力的有效方法,但内在机制不明。新加坡国立大学团队通过logit lens分析发现:RLVR会改变低熵激活分布,高熵激活相对稳定;低熵激活的偏移与模型推理能力提升密切相关,这为后续方法设计提供了方向。
章节 03
Activation Replay是一种免训练方法,核心原理为:测试时操控视觉token,将基础模型(未RLVR训练)的低熵激活重播到RLVR训练后的模型中。步骤包括提取基础模型低熵激活、推理时注入、无需策略优化。对比实验验证:低熵激活效果优于高熵,操控输入token方式更优雅有效。
章节 04
Activation Replay在多任务中效果显著:1.数学推理:提升复杂问题解题准确率;2.类o3视觉代理:改善复杂环境决策质量;3.视频推理:增强时序逻辑与因果关系捕捉;4.指标提升:Pass@K显著提高,缓解RLVR导致的推理覆盖度收窄问题。
章节 05
Activation Replay的优势包括:免训练(降低部署成本)、通用性强(适用于多种模型与任务)、即插即用(易集成现有流程)、可解释性(基于激活模式理解)。该方法不仅提升模型性能,还为理解LMM推理机制提供新视角,将在多模态AI应用中发挥重要作用。
章节 06
研究团队已将Activation Replay代码开源至GitHub(latentcraft/replay),为学术界和工业界进一步研究提供宝贵资源,标志着多模态模型推理优化领域的重要进展。