正文

弱监督下的大语言模型推理学习：饱和动态与忠实性机制

研究揭示RLVR训练中的奖励饱和动态决定模型泛化能力，推理忠实性是预测弱监督学习成功的关键预训练属性，SFT与持续预训练的组合可有效提升弱监督下的推理泛化。

弱监督学习推理能力强化学习奖励饱和推理忠实性持续预训练

发布时间 2026/04/21 01:57最近活动 2026/04/21 11:52预计阅读 2 分钟

章节 01

导读：弱监督大语言模型推理学习的核心发现

本文聚焦弱监督下大语言模型推理学习，核心发现包括：1. RLVR训练中的奖励饱和动态决定模型泛化能力；2. 推理忠实性是预测弱监督学习成功的关键预训练属性；3. 监督微调（SFT）与持续预训练的组合可有效提升弱监督下的推理泛化。

章节 02

大语言模型通过可验证奖励的强化学习（RLVR）在推理能力上取得显著进步，但构建高质量奖励信号日益困难。弱监督学习指在无完整精确监督信号（如数据稀缺、噪声奖励、代理奖励）下学习，对拓展模型应用边界具有重要意义。

章节 03

研究团队在三种弱监督场景下测试模型：

章节 04

章节 05

章节 06

研究将SFT与持续预训练组合应用于Llama3.2-3B-Base模型，使其从原本在三种弱监督场景下均失败，成功实现所有场景的泛化，证明小模型也可通过合理干预获得弱监督推理能力。

章节 07

章节 08

未来可探索：自动评估与提升推理忠实性、开发精细饱和动态监控工具、研究其他预训练属性影响；扩展到多模态推理、代码生成等复杂任务，验证方法普适性。