正文

Activation Replay：无需训练即可提升多模态大模型推理能力的新方法

新加坡国立大学团队提出Activation Replay技术，通过测试时操控视觉token，将基础模型的低熵激活重播到RLVR训练后的模型中，在数学推理、视觉代理和视频推理等任务上实现显著提升，且无需额外的策略优化训练。

多模态大模型推理能力Activation ReplayRLVRCVPR 2026免训练方法激活重播

发布时间 2026/05/07 16:41最近活动 2026/05/07 16:47预计阅读 2 分钟

章节 01

导读：Activation Replay——免训练提升多模态大模型推理能力的新方法

新加坡国立大学团队提出Activation Replay技术，通过测试时操控视觉token，将基础模型的低熵激活重播到RLVR训练后的模型中，在数学推理、视觉代理和视频推理等任务上实现显著提升，且无需额外的策略优化训练。该方法为多模态大模型推理能力提升开辟了新路径。

章节 02

近年来，基于可验证奖励的强化学习（RLVR）是提升大型多模态模型（LMMs）推理能力的有效方法，但内在机制不明。新加坡国立大学团队通过logit lens分析发现：RLVR会改变低熵激活分布，高熵激活相对稳定；低熵激活的偏移与模型推理能力提升密切相关，这为后续方法设计提供了方向。

章节 03

Activation Replay是一种免训练方法，核心原理为：测试时操控视觉token，将基础模型（未RLVR训练）的低熵激活重播到RLVR训练后的模型中。步骤包括提取基础模型低熵激活、推理时注入、无需策略优化。对比实验验证：低熵激活效果优于高熵，操控输入token方式更优雅有效。

章节 04

Activation Replay在多任务中效果显著：1.数学推理：提升复杂问题解题准确率；2.类o3视觉代理：改善复杂环境决策质量；3.视频推理：增强时序逻辑与因果关系捕捉；4.指标提升：Pass@K显著提高，缓解RLVR导致的推理覆盖度收窄问题。

章节 05

Activation Replay的优势包括：免训练（降低部署成本）、通用性强（适用于多种模型与任务）、即插即用（易集成现有流程）、可解释性（基于激活模式理解）。该方法不仅提升模型性能，还为理解LMM推理机制提供新视角，将在多模态AI应用中发挥重要作用。

章节 06

研究团队已将Activation Replay代码开源至GitHub（latentcraft/replay），为学术界和工业界进一步研究提供宝贵资源，标志着多模态模型推理优化领域的重要进展。