Zing 论坛

正文

弱监督下的大语言模型推理学习:饱和动态与忠实性机制

研究揭示RLVR训练中的奖励饱和动态决定模型泛化能力,推理忠实性是预测弱监督学习成功的关键预训练属性,SFT与持续预训练的组合可有效提升弱监督下的推理泛化。

弱监督学习推理能力强化学习奖励饱和推理忠实性持续预训练
发布时间 2026/04/21 01:57最近活动 2026/04/21 11:52预计阅读 2 分钟
弱监督下的大语言模型推理学习:饱和动态与忠实性机制
1

章节 01

导读:弱监督大语言模型推理学习的核心发现

本文聚焦弱监督下大语言模型推理学习,核心发现包括:1. RLVR训练中的奖励饱和动态决定模型泛化能力;2. 推理忠实性是预测弱监督学习成功的关键预训练属性;3. 监督微调(SFT)与持续预训练的组合可有效提升弱监督下的推理泛化。

2

章节 02

背景:推理学习从强监督到弱监督的范式转移

大语言模型通过可验证奖励的强化学习(RLVR)在推理能力上取得显著进步,但构建高质量奖励信号日益困难。弱监督学习指在无完整精确监督信号(如数据稀缺、噪声奖励、代理奖励)下学习,对拓展模型应用边界具有重要意义。

3

章节 03

研究方法:三种典型弱监督场景的设计

研究团队在三种弱监督场景下测试模型:

  1. 数据稀缺场景:模型仅在极有限标注样本上训练,关注泛化而非记忆;
  2. 噪声奖励场景:模拟奖励信号不完美,测试模型对噪声的鲁棒性;
  3. 自监督代理奖励场景:模型依赖自身生成的代理信号学习,无外部验证。
4

章节 04

核心发现:奖励饱和动态与推理忠实性的关键作用

  1. 奖励饱和动态:成功泛化的模型表现出延长的预饱和阶段(训练奖励与下游性能同步提升),快速饱和模型易过拟合;
  2. 推理忠实性:中间步骤逻辑支持最终答案的程度是预测弱监督学习成功的可靠指标,单纯输出多样性无法预测泛化。
5

章节 05

提升策略:SFT与持续预训练的协同效应

  1. SFT的关键作用:显式推理轨迹上的监督微调帮助模型建立问题分解和逐步推理框架,为后续弱监督学习奠基;
  2. 持续预训练的放大效应:领域数据上的持续预训练提供丰富领域知识,与SFT协同提升弱监督推理效果。
6

章节 06

实验验证:Llama3.2-3B模型的弱监督泛化提升

研究将SFT与持续预训练组合应用于Llama3.2-3B-Base模型,使其从原本在三种弱监督场景下均失败,成功实现所有场景的泛化,证明小模型也可通过合理干预获得弱监督推理能力。

7

章节 07

训练启示:弱监督推理学习的实践建议

  1. 重视推理忠实性培养,预训练阶段关注推理过程逻辑一致性;
  2. 监控奖励饱和曲线,延长预饱和阶段比追求高训练奖励更重要;
  3. 采用分阶段训练:先SFT建立推理框架,再持续预训练扩展知识,最后弱监督强化学习。
8

章节 08

未来方向:弱监督推理学习的拓展研究

未来可探索:自动评估与提升推理忠实性、开发精细饱和动态监控工具、研究其他预训练属性影响;扩展到多模态推理、代码生成等复杂任务,验证方法普适性。