章节 01
导读 / 主楼:SmartThinker:通过渐进式思维链长度校准实现高效大语言模型推理
上海交大团队提出的SmartThinker方法,通过动态估计最优推理长度并调节奖励系数,在保持准确率的同时实现高达52.6%的推理长度压缩,并在AIME25等难题上取得16.6%的相对准确率提升。
正文
上海交大团队提出的SmartThinker方法,通过动态估计最优推理长度并调节奖励系数,在保持准确率的同时实现高达52.6%的推理长度压缩,并在AIME25等难题上取得16.6%的相对准确率提升。
章节 01
上海交大团队提出的SmartThinker方法,通过动态估计最优推理长度并调节奖励系数,在保持准确率的同时实现高达52.6%的推理长度压缩,并在AIME25等难题上取得16.6%的相对准确率提升。
章节 02
章节 03
近年来,以OpenAI o1和DeepSeek-R1为代表的大型推理模型(Large Reasoning Models, LRMs)在数学推理、代码生成等复杂任务上取得了令人瞩目的成绩。这些模型的核心秘诀在于采用了**长思维链(Chain-of-Thought, CoT)**推理机制——它们会在给出最终答案之前,先生成一个详细的内部思考过程。
然而,这种"深思熟虑"的方式也带来了明显的代价:推理过程极其冗长。模型往往会生成大量冗余的思考步骤,出现所谓的"过度思考"(overthinking)现象。这不仅增加了推理延迟和计算成本,还可能导致模型在简单问题上"想太多",反而降低了效率。
现有的解决方案大多基于GRPO(Group Relative Policy Optimization)算法来压缩输出长度,但这些方法采用静态的长度奖励设计,无法根据问题难度和响应长度分布进行自适应调整。结果往往是过度压缩导致准确率下降,或者压缩不足导致效率提升有限。
章节 04
针对上述问题,上海交大团队提出了SmartThinker——一种基于GRPO的新型高效推理方法,通过渐进式思维链长度校准来实现智能压缩。该方法的核心创新可以概括为两点:
章节 05
SmartThinker在训练过程中动态估计每种类型问题的最优推理长度——即在该长度下模型能够达到峰值准确率。对于过长的响应,系统会将其引导向这个最优长度,从而在减少推理长度的同时保持准确率。
这种动态估计不是预设的固定值,而是根据训练过程中的实际表现不断调整,因此能够适应不同难度级别的问题。
章节 06
传统的长度惩罚方法往往一视同仁,对正确的推理路径也可能施加不必要的惩罚。SmartThinker引入了动态长度奖励系数机制,能够识别并避免对正确的推理路径进行不当惩罚,确保模型不会因为追求短输出而牺牲推理质量。
章节 07
研究团队在多个具有挑战性的基准测试上验证了SmartThinker的效果,结果令人印象深刻:
这些结果表明,SmartThinker成功地解决了"压缩vs准确率"的权衡难题,为高效推理模型的发展提供了新的思路。
章节 08
SmartThinker项目提供了完整的技术实现,包括: