Zing 论坛

正文

深入探究RLVR训练如何重塑大语言模型的内部表征

通过机械可解释性技术对比基础模型、SFT模型和RLVR模型,揭示强化学习从可验证奖励中优化模型推理能力的内在机制。

RLVR强化学习机械可解释性大语言模型推理能力TransformerDeepSeek数学推理
发布时间 2026/05/02 18:44最近活动 2026/05/02 18:49预计阅读 2 分钟
深入探究RLVR训练如何重塑大语言模型的内部表征
1

章节 01

【主楼/导读】深入探究RLVR训练如何重塑大语言模型内部表征

本文聚焦强化学习从可验证奖励(RLVR)训练对大语言模型(LLM)内部表征的影响,通过对比基础模型、SFT模型和RLVR模型,验证"路由假说"(仅引导知识调用)与"表征学习假说"(创造新推理特征)的争议。采用机械可解释性技术分析Transformer架构内部变化,旨在揭示RLVR优化推理能力的内在机制,为高效训练策略提供理论依据。

2

章节 02

研究背景与核心问题

当前RLVR的争议集中在两个假说:1.路由假说:RLVR仅调整注意力回路引导已有知识调用,不创造新MLP特征;2.表征学习假说:RLVR固化全新逻辑回路,改变潜层编码。研究需深入Transformer残差流变化,意义在于理解RLVR机制并指导未来训练策略。

3

章节 03

三阶段对比实验设计

实验在同一基础模型上构建三个版本: -基础阶段:未经特定训练的预训练模型,作为初始知识基准; -监督微调(SFT)阶段:用NuminaMath-CoT数据集学习数学推理模式与格式,高token准确率表明模仿成功; -RLVR阶段:基于SFT模型,用GSM8K等异构数学数据集训练,通过可验证正确性奖励优化解题轨迹(非简单模仿)。

4

章节 04

RLVR训练的奖励函数与配置

RLVR训练采用Hugging Face TRL库的GRPOTrainer,结合DeepSpeed分布式优化与vLLM加速。核心超参数:学习率2e-6,最大生成长度2000。奖励函数为R=R_accuracy+0.01×R_format:正确答案+1.0,格式符合+1.0(格式权重低,优先正确性)。

5

章节 05

机械可解释性分析方法

采用多种技术分析: 1.组件级表征对比:提取隐藏状态,分离注意力/MLP输出,用中心核对齐测相似性; 2.线性探测与因果干预:训练分类器预测中间步骤,Logit Lens映射词表,激活修补验证关键层作用; 3.权重距离与谱分析:计算权重差异L2范数,SVD分析权重更新是否低秩(路由假说)或集中MLP(表征学习假说)。

6

章节 06

研究意义与未来展望

研究影响显著:若路由假说成立,可轻量激活预存能力;若表征学习假说成立,需持续投资RLVR基础设施。无论结果,均为LLM学习机制提供见解,推动高效训练策略与可解释AI发展,值得研究者与工程师关注。