Zing 论坛

正文

SmartThinker:渐进式思维链长度校准,让大模型推理更高效

上海交通大学团队提出的SmartThinker方法,通过动态校准思维链长度,在保持推理精度的同时实现高达52.5%的输出压缩,已被ICML 2026接收。

思维链优化推理效率GRPO大模型推理ICML2026上海交通大学长度校准强化学习
发布时间 2026/05/03 02:36最近活动 2026/05/03 02:53预计阅读 2 分钟
SmartThinker:渐进式思维链长度校准,让大模型推理更高效
1

章节 01

SmartThinker:渐进式思维链长度校准,实现大模型推理效率与精度双赢

上海交通大学团队提出SmartThinker方法,通过动态校准思维链长度,在保持推理精度的同时实现高达52.5%的输出压缩,该研究已被ICML 2026接收。本文将从背景、方法、实验、影响等方面展开讨论。

2

章节 02

大推理模型的效率困境与现有方案局限

近年来,OpenAI o1、DeepSeek-R1等大型推理模型(LRMs)依赖长思维链(CoT)提升复杂任务表现,但长CoT带来冗余、推理成本飙升和响应延迟问题。现有GRPO方法采用静态长度奖励,无法动态适配问题难度,易导致压缩过度或不足。

3

章节 03

SmartThinker的两大核心创新

SmartThinker的核心在于:1.动态最优长度估计:训练中估计每个问题的最优推理链长度,引导模型向临界点靠拢;2.动态奖励系数调制:避免不当惩罚正确但较长的推理路径,让模型学会“该长则长、该短则短”的决策。

4

章节 04

实验结果验证效率与精度双赢

在多个基准测试中,SmartThinker实现平均52.5%的输出压缩,同时保持甚至提升精度;在AIME25等高难度任务上,精度提升高达16.6%。适度长度约束促使模型聚焦关键步骤,避免无效循环。

5

章节 05

SmartThinker开源实现与使用指南

团队已开源训练/测试代码及1.5B、4B参数预训练模型,基于Python3.12、PyTorch2.8.0等构建。使用流程包括环境准备、数据预处理、配置Wandb、训练、模型转换及效果验证,提供完整脚本降低复现门槛。

6

章节 06

SmartThinker的技术突破与产业价值

该方法标志推理模型优化进入新阶段(从延长CoT到动态压缩),产业价值包括:成本节约(按token计费场景)、延迟改善、边缘部署适配、降低能耗与碳足迹。

7

章节 07

未来方向与结语

未来可扩展至更多模型架构、结合蒸馏技术、探索在线学习及多模态场景优化。SmartThinker通过精细奖励设计实现效率与精度双赢,有望成为推理模型部署的标准实践之一。