章节 01
导读:弱监督大语言模型推理学习的核心发现
本文聚焦弱监督下大语言模型推理学习,核心发现包括:1. RLVR训练中的奖励饱和动态决定模型泛化能力;2. 推理忠实性是预测弱监督学习成功的关键预训练属性;3. 监督微调(SFT)与持续预训练的组合可有效提升弱监督下的推理泛化。
正文
研究揭示RLVR训练中的奖励饱和动态决定模型泛化能力,推理忠实性是预测弱监督学习成功的关键预训练属性,SFT与持续预训练的组合可有效提升弱监督下的推理泛化。
章节 01
本文聚焦弱监督下大语言模型推理学习,核心发现包括:1. RLVR训练中的奖励饱和动态决定模型泛化能力;2. 推理忠实性是预测弱监督学习成功的关键预训练属性;3. 监督微调(SFT)与持续预训练的组合可有效提升弱监督下的推理泛化。
章节 02
大语言模型通过可验证奖励的强化学习(RLVR)在推理能力上取得显著进步,但构建高质量奖励信号日益困难。弱监督学习指在无完整精确监督信号(如数据稀缺、噪声奖励、代理奖励)下学习,对拓展模型应用边界具有重要意义。
章节 03
研究团队在三种弱监督场景下测试模型:
章节 04
章节 05
章节 06
研究将SFT与持续预训练组合应用于Llama3.2-3B-Base模型,使其从原本在三种弱监督场景下均失败,成功实现所有场景的泛化,证明小模型也可通过合理干预获得弱监督推理能力。
章节 07
章节 08
未来可探索:自动评估与提升推理忠实性、开发精细饱和动态监控工具、研究其他预训练属性影响;扩展到多模态推理、代码生成等复杂任务,验证方法普适性。