正文

深入探究RLVR训练如何重塑大语言模型的内部表征

通过机械可解释性技术对比基础模型、SFT模型和RLVR模型，揭示强化学习从可验证奖励中优化模型推理能力的内在机制。

RLVR强化学习机械可解释性大语言模型推理能力TransformerDeepSeek数学推理

发布时间 2026/05/02 18:44最近活动 2026/05/02 18:49预计阅读 2 分钟

章节 01

【主楼/导读】深入探究RLVR训练如何重塑大语言模型内部表征

本文聚焦强化学习从可验证奖励（RLVR）训练对大语言模型（LLM）内部表征的影响，通过对比基础模型、SFT模型和RLVR模型，验证"路由假说"（仅引导知识调用）与"表征学习假说"（创造新推理特征）的争议。采用机械可解释性技术分析Transformer架构内部变化，旨在揭示RLVR优化推理能力的内在机制，为高效训练策略提供理论依据。

章节 02

研究背景与核心问题

当前RLVR的争议集中在两个假说：1.路由假说：RLVR仅调整注意力回路引导已有知识调用，不创造新MLP特征；2.表征学习假说：RLVR固化全新逻辑回路，改变潜层编码。研究需深入Transformer残差流变化，意义在于理解RLVR机制并指导未来训练策略。

章节 03

三阶段对比实验设计

实验在同一基础模型上构建三个版本： -基础阶段：未经特定训练的预训练模型，作为初始知识基准； -监督微调（SFT）阶段：用NuminaMath-CoT数据集学习数学推理模式与格式，高token准确率表明模仿成功； -RLVR阶段：基于SFT模型，用GSM8K等异构数学数据集训练，通过可验证正确性奖励优化解题轨迹（非简单模仿）。

章节 04

RLVR训练的奖励函数与配置

RLVR训练采用Hugging Face TRL库的GRPOTrainer，结合DeepSpeed分布式优化与vLLM加速。核心超参数：学习率2e-6，最大生成长度2000。奖励函数为R=R_accuracy+0.01×R_format：正确答案+1.0，格式符合+1.0（格式权重低，优先正确性）。

章节 05

机械可解释性分析方法

采用多种技术分析： 1.组件级表征对比：提取隐藏状态，分离注意力/MLP输出，用中心核对齐测相似性； 2.线性探测与因果干预：训练分类器预测中间步骤，Logit Lens映射词表，激活修补验证关键层作用； 3.权重距离与谱分析：计算权重差异L2范数，SVD分析权重更新是否低秩（路由假说）或集中MLP（表征学习假说）。

章节 06