# Activation Replay：无需训练即可提升多模态大模型推理能力的新方法

> 新加坡国立大学团队提出Activation Replay技术，通过测试时操控视觉token，将基础模型的低熵激活重播到RLVR训练后的模型中，在数学推理、视觉代理和视频推理等任务上实现显著提升，且无需额外的策略优化训练。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T08:41:39.000Z
- 最近活动: 2026-05-07T08:47:32.570Z
- 热度: 139.9
- 关键词: 多模态大模型, 推理能力, Activation Replay, RLVR, CVPR 2026, 免训练方法, 激活重播
- 页面链接: https://www.zingnex.cn/forum/thread/activation-replay
- Canonical: https://www.zingnex.cn/forum/thread/activation-replay
- Markdown 来源: ingested_event

---

# Activation Replay：无需训练即可提升多模态大模型推理能力的新方法\n\n## 研究背景与动机\n\n近年来，基于可验证奖励的强化学习（RLVR）已成为提升大型多模态模型（LMMs）推理能力的有效方法。然而，这种后训练范式背后的内在机制却鲜为人知。研究人员一直在探索：RLVR究竟如何影响模型的内部激活模式？这种影响与模型推理能力的提升有何关联？\n\n新加坡国立大学的研究团队通过logit lens视角对输入激活进行了系统性研究，发现RLVR会意外地改变低熵激活的分布，而高熵激活则相对稳定。这一发现为理解RLVR训练机制提供了新的视角，也为进一步提升模型推理能力指明了方向。\n\n## 核心发现：低熵激活的关键作用\n\n研究团队对多个经过RLVR后训练的多模态模型进行了深入分析，得出以下关键发现：\n\n**低熵激活的迁移现象**：RLVR训练会导致低熵激活发生显著偏移，而高熵激活受影响较小。这种偏移与模型的推理能力密切相关。\n\n**可控实验验证**：通过设计精密的对比实验，研究人员证实了低熵激活的调节对推理能力具有积极作用。这意味着如果能够适当"调控"这些低熵激活，就有可能在不进行额外训练的情况下提升模型的推理表现。\n\n这一发现的重要性在于，它揭示了模型推理能力的一个潜在"杠杆点"——通过干预低熵激活，而非改变整个模型参数，就能实现推理能力的提升。\n\n## Activation Replay方法详解\n\n基于上述发现，研究团队提出了**Activation Replay**——一种新颖、简单且有效的免训练方法。\n\n### 方法原理\n\nActivation Replay的核心思想是在测试时操控视觉token，将基础模型（base LMM）的低熵激活"重播"到经过RLVR训练的模型中。具体来说：\n\n1. **提取基础模型激活**：从未经RLVR训练的基础模型中提取输入上下文对应的低熵激活\n2. **测试时干预**：在推理过程中，将这些低熵激活注入到RLVR训练后的模型中\n3. **无需策略优化**：整个过程不需要昂贵的策略优化训练，完全是推理时的干预\n\n### 技术实现\n\nActivation Replay的设计经过了精心考量。研究团队对比了多种替代方案：\n\n- **重播高熵激活 vs 低熵激活**：实验证明低熵激活的效果显著优于高熵激活\n- **直接跨模型干预 vs 操控输入token**：通过操控输入token的方式更加优雅且有效\n\n这些对比实验充分验证了Activation Replay设计的优越性。\n\n## 实验结果与性能表现\n\nActivation Replay在多个推理场景下展现出强大的提升效果：\n\n### 数学推理\n\n在数学推理任务上，Activation Replay显著提升了模型的解题准确率。这种方法特别适用于需要多步推理的复杂数学问题。\n\n### 类o3视觉代理\n\n研究团队还测试了Activation Replay在类o3视觉代理任务上的表现。结果显示，该方法能够有效提升视觉代理在复杂视觉环境中的决策质量。\n\n### 视频推理\n\n在视频理解任务中，Activation Replay同样表现出色，帮助模型更好地捕捉视频中的时序逻辑和因果关系。\n\n### Pass@K与推理覆盖度\n\n除了直接提升准确率外，Activation Replay还在两个重要指标上表现出色：\n\n- **提升Pass@K**：在多次采样中，正确率指标得到显著提升\n- **缓解推理覆盖度收窄**：RLVR训练往往会导致模型推理路径变窄，而Activation Replay能够有效缓解这一问题，使模型保持更广泛的推理能力\n\n## 方法优势与应用前景\n\nActivation Replay具有以下几个显著优势：\n\n**免训练特性**：最大的优势在于无需任何额外的训练或微调，这大大降低了部署成本和时间开销。\n\n**通用性强**：该方法适用于多种多模态模型和推理任务，具有良好的迁移性。\n\n**即插即用**：Activation Replay可以方便地集成到现有的推理流程中，无需对模型架构进行修改。\n\n**可解释性**：基于对激活模式的深入理解，Activation Replay提供了更好的可解释性，有助于研究人员理解模型推理的内在机制。\n\n## 开源资源与社区影响\n\n研究团队已将代码开源至GitHub（latentcraft/replay），这为学术界和工业界的进一步研究提供了宝贵资源。该工作的发表也标志着多模态模型推理优化领域的一个重要进展。\n\n## 结语\n\nActivation Replay的提出为多模态大模型的推理能力提升开辟了一条新路径。通过深入理解RLVR训练对模型激活模式的影响，研究人员成功设计出一种简单有效的免训练方法。这项工作不仅具有直接的实用价值，更为理解大型多模态模型的推理机制提供了新的视角。随着多模态AI应用的快速发展，像Activation Replay这样的技术将在提升模型性能和降低部署成本方面发挥越来越重要的作用。