Zing 论坛

正文

SmartThinker:通过渐进式思维链长度校准实现高效大语言模型推理

上海交大团队提出的SmartThinker方法,通过动态估计最优推理长度并调节奖励系数,在保持准确率的同时实现高达52.6%的推理长度压缩,并在AIME25等难题上取得16.6%的相对准确率提升。

大语言模型思维链推理效率GRPO模型压缩ICML 2026上海交通大学
发布时间 2026/06/06 02:42最近活动 2026/06/06 02:48预计阅读 3 分钟
SmartThinker:通过渐进式思维链长度校准实现高效大语言模型推理
1

章节 01

导读 / 主楼:SmartThinker:通过渐进式思维链长度校准实现高效大语言模型推理

上海交大团队提出的SmartThinker方法,通过动态估计最优推理长度并调节奖励系数,在保持准确率的同时实现高达52.6%的推理长度压缩,并在AIME25等难题上取得16.6%的相对准确率提升。

2

章节 02

原作者与来源

  • 原作者/维护者:SJTU-RTEAS(上海交通大学实时嵌入式系统与智能计算实验室)
  • 来源平台:GitHub
  • 原始标题:SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning
  • 原始链接https://github.com/SJTU-RTEAS/SmartThinker
  • 论文链接https://arxiv.org/abs/2603.08000
  • 发布时间:2026年3月(ICML 2026已接收)

3

章节 03

背景:长思维链的困境

近年来,以OpenAI o1和DeepSeek-R1为代表的大型推理模型(Large Reasoning Models, LRMs)在数学推理、代码生成等复杂任务上取得了令人瞩目的成绩。这些模型的核心秘诀在于采用了**长思维链(Chain-of-Thought, CoT)**推理机制——它们会在给出最终答案之前,先生成一个详细的内部思考过程。

然而,这种"深思熟虑"的方式也带来了明显的代价:推理过程极其冗长。模型往往会生成大量冗余的思考步骤,出现所谓的"过度思考"(overthinking)现象。这不仅增加了推理延迟和计算成本,还可能导致模型在简单问题上"想太多",反而降低了效率。

现有的解决方案大多基于GRPO(Group Relative Policy Optimization)算法来压缩输出长度,但这些方法采用静态的长度奖励设计,无法根据问题难度和响应长度分布进行自适应调整。结果往往是过度压缩导致准确率下降,或者压缩不足导致效率提升有限。


4

章节 04

SmartThinker 核心思想

针对上述问题,上海交大团队提出了SmartThinker——一种基于GRPO的新型高效推理方法,通过渐进式思维链长度校准来实现智能压缩。该方法的核心创新可以概括为两点:

5

章节 05

1. 动态最优长度估计与引导

SmartThinker在训练过程中动态估计每种类型问题的最优推理长度——即在该长度下模型能够达到峰值准确率。对于过长的响应,系统会将其引导向这个最优长度,从而在减少推理长度的同时保持准确率。

这种动态估计不是预设的固定值,而是根据训练过程中的实际表现不断调整,因此能够适应不同难度级别的问题。

6

章节 06

2. 动态长度奖励系数调节

传统的长度惩罚方法往往一视同仁,对正确的推理路径也可能施加不必要的惩罚。SmartThinker引入了动态长度奖励系数机制,能够识别并避免对正确的推理路径进行不当惩罚,确保模型不会因为追求短输出而牺牲推理质量。


7

章节 07

实验结果:效率与准确率兼得

研究团队在多个具有挑战性的基准测试上验证了SmartThinker的效果,结果令人印象深刻:

  • 推理长度压缩:最高可达**52.6%**的长度压缩率,显著降低了推理成本
  • 准确率提升:在AIME25等高难度数学推理基准上,实现了**16.6%**的相对准确率提升
  • 双重收益:与单纯追求压缩的方法不同,SmartThinker在缩短推理长度的同时提高了准确率,实现了真正的双赢

这些结果表明,SmartThinker成功地解决了"压缩vs准确率"的权衡难题,为高效推理模型的发展提供了新的思路。


8

章节 08

技术实现与开源资源

SmartThinker项目提供了完整的技术实现,包括: