# 深入探究RLVR训练如何重塑大语言模型的内部表征

> 通过机械可解释性技术对比基础模型、SFT模型和RLVR模型，揭示强化学习从可验证奖励中优化模型推理能力的内在机制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-02T10:44:51.000Z
- 最近活动: 2026-05-02T10:49:26.885Z
- 热度: 141.9
- 关键词: RLVR, 强化学习, 机械可解释性, 大语言模型, 推理能力, Transformer, DeepSeek, 数学推理
- 页面链接: https://www.zingnex.cn/forum/thread/rlvr-ec6bd715
- Canonical: https://www.zingnex.cn/forum/thread/rlvr-ec6bd715
- Markdown 来源: ingested_event

---

# 深入探究RLVR训练如何重塑大语言模型的内部表征\n\n近年来，强化学习从可验证奖励（Reinforcement Learning from Verifiable Rewards, RLVR）已成为提升大语言模型推理能力的重要技术路线。DeepSeek-R1等模型的成功表明，RLVR能够显著增强模型在数学推理和代码生成等任务上的表现。然而，学术界对于RLVR究竟如何改变模型内部参数仍存在激烈争论：它是在激活预存的知识，还是在创造全新的推理特征？\n\n## 研究背景与核心问题\n\n当前关于RLVR的争议主要集中在两个对立假说之上。第一种是"路由假说"（Steering Hypothesis），认为RLVR仅作为一种路由机制，通过调整注意力回路来引导模型调用已有的知识，而不会在多层感知机（MLP）中创造新的特征。第二种是"表征学习假说"（Representation Learning Hypothesis），主张RLVR会促使模型固化全新的逻辑回路，从根本上改变潜层特征编码。\n\n为验证这两种假说，研究者需要深入到Transformer架构的内部，对比分析残差流在经过注意力头和MLP层处理前后的变化。这项研究的意义不仅在于理解RLVR的工作机制，更在于为未来设计更高效的训练策略提供理论依据。\n\n## 三阶段对比实验设计\n\n本项目采用严谨的对比实验设计，在同一基础模型上构建三个不同的训练阶段版本：\n\n**基础阶段（Vanilla Phase）**：使用未经任何领域特定训练的预训练模型作为基准，代表模型的初始知识状态。\n\n**监督微调阶段（SFT Phase）**：采用NuminaMath-CoT数据集进行监督微调，使模型学习数学推理的基本模式、解题结构和期望的输出格式。这一阶段的高token准确率表明模型已有效模仿了监督样本的解题风格。\n\n**RLVR阶段（RLVR Phase）**：在SFT模型基础上，使用GSM8K、MATH-Lighteval和DAPO-Math-17k等异构数学数据集进行RLVR训练。与SFT不同，RLVR的目标是通过可验证的正确性奖励来优化解题轨迹，而非简单模仿示例。\n\n## 奖励函数与训练配置\n\n本项目的RLVR训练采用Hugging Face TRL库中的GRPOTrainer，并结合DeepSpeed进行分布式优化，vLLM加速采样过程。核心超参数包括2e-6的学习率、2000的最大生成长度，以及针对DAPO损失类型的配置。\n\n奖励函数设计借鉴了DeepSeek-R1的训练方案，由准确性奖励和格式奖励两部分组成。准确性奖励在答案正确时给予+1.0，否则为0；格式奖励则在输出符合要求格式时给予+1.0。由于SFT阶段已使模型掌握目标格式，格式奖励的权重被设为0.01，确保RLVR的主要目标是最大化数学正确性而非强化格式行为。总奖励公式可表示为：R = R_accuracy + 0.01 × R_format。\n\n## 机械可解释性分析方法\n\n为深入理解RLVR对模型内部表征的影响，项目计划采用多种机械可解释性技术：\n\n**组件级表征对比**：针对每种问题类型，提取三个模型版本的隐藏状态，并分离注意力输出和MLP输出。通过中心核对齐（Centered Kernel Alignment）测量表征相似性，识别RLVR后分歧最大的具体组件。\n\n**线性探测与因果干预**：在隐藏状态上训练线性分类器预测正确的中间推理步骤，结合Logit Lens分析将中间表征映射到词表空间。为建立因果关系，采用激活修补技术（Activation Patching），将RLVR模型的特定激活注入SFT模型进行推理，以证明特定层是否承载关键推理特征。\n\n**权重距离与谱分析**：计算RLVR与SFT、RLVR与基础模型之间的权重差异L2范数，并对权重差异矩阵进行奇异值分解（SVD）。如果RLVR主要作为路由机制，权重更新应呈现低秩特性并集中在特定注意力头，而非MLP层。\n\n## 研究意义与未来展望\n\n这项研究的潜在影响远超学术探讨。如果"路由假说"成立，意味着我们可以通过更轻量的方法来激活模型的预存能力，而无需耗费大量计算资源进行完整的RLVR训练。反之，如果"表征学习假说"得到证实，则表明RLVR确实在创造新的认知能力，这将支持继续投资大规模RLVR训练基础设施。\n\n无论结果如何，这项研究都将为理解大语言模型的学习机制提供宝贵见解，帮助研究者设计更高效的训练策略，并推动可解释AI领域的发展。对于关注AI推理能力提升的研究者和工程师而言，这是一个值得持续关注的方向。\n