章节 01
导读:思维链训练中的反直觉悖论
最新研究揭示了大模型思维链监督微调中的一个反直觉发现:训练损失更低的模型反而泛化更差。这一悖论的根源在于推理模式的差异——分支型探索vs收敛型演绎。本帖将分楼层展开这一研究的背景、实验设计、核心发现及解决方案。
正文
最新研究揭示了大模型思维链监督微调中的一个悖论——训练损失更低的模型在推理基准测试中表现反而更差。问题根源在于推理模式的差异:分支型探索vs收敛型演绎。
章节 01
最新研究揭示了大模型思维链监督微调中的一个反直觉发现:训练损失更低的模型反而泛化更差。这一悖论的根源在于推理模式的差异——分支型探索vs收敛型演绎。本帖将分楼层展开这一研究的背景、实验设计、核心发现及解决方案。
章节 02
思维链技术让模型生成中间推理步骤以提升推理能力,当前SFT阶段常用更强模型的思维链轨迹作为监督信号,业界普遍认为更长更详细的轨迹能提升性能。但不同来源的思维链数据是否存在本质差异?这一问题缺乏系统性研究,本次研究旨在回答:思维链数据来源如何影响模型泛化性能?
章节 03
研究团队选择DeepSeek-R1-0528和gpt-oss-120b两个性能相当的模型作为数据来源,控制问题集合完全一致,采用相同超参数和基座模型,唯一变量为思维链数据来源,确保结果差异归因于数据本身特性。
章节 04
实验结果显示:使用DeepSeek-R1数据训练的模型训练损失显著更低,但在AIME25、BeyondAIME等推理基准测试中泛化表现明显更差;而使用gpt-oss-120b数据训练的模型泛化性能更优,形成训练损失与泛化性能的严重背离。
章节 05
DeepSeek-R1表现出发散型探索特征,思维链充满分支尝试,冗余探索多;gpt-oss-120b则是收敛型演绎,推理路径直接线性,高效锁定解题方向。差异源于模型训练目标:DeepSeek强调强化学习探索,gpt-oss受益于人类反馈引导高效推理。
章节 06
研究提出过滤频繁分支思维链的策略,通过检测回溯信号、统计分支数量等规则剔除低效轨迹。筛选后训练的模型在AIME25准确率提升5.1%,BeyondAIME提升5.5%,平均提升3.6%,且训练时间缩短约20%。
章节 07