正文

SmartThinker：渐进式思维链长度校准，让大模型推理更高效

上海交通大学团队提出的SmartThinker方法，通过动态校准思维链长度，在保持推理精度的同时实现高达52.5%的输出压缩，已被ICML 2026接收。

思维链优化推理效率GRPO大模型推理ICML2026上海交通大学长度校准强化学习

发布时间 2026/05/03 02:36最近活动 2026/05/03 02:53预计阅读 2 分钟

章节 01

SmartThinker：渐进式思维链长度校准，实现大模型推理效率与精度双赢

上海交通大学团队提出SmartThinker方法，通过动态校准思维链长度，在保持推理精度的同时实现高达52.5%的输出压缩，该研究已被ICML 2026接收。本文将从背景、方法、实验、影响等方面展开讨论。

章节 02

近年来，OpenAI o1、DeepSeek-R1等大型推理模型（LRMs）依赖长思维链（CoT）提升复杂任务表现，但长CoT带来冗余、推理成本飙升和响应延迟问题。现有GRPO方法采用静态长度奖励，无法动态适配问题难度，易导致压缩过度或不足。

章节 03

SmartThinker的核心在于：1.动态最优长度估计：训练中估计每个问题的最优推理链长度，引导模型向临界点靠拢；2.动态奖励系数调制：避免不当惩罚正确但较长的推理路径，让模型学会“该长则长、该短则短”的决策。

章节 04

在多个基准测试中，SmartThinker实现平均52.5%的输出压缩，同时保持甚至提升精度；在AIME25等高难度任务上，精度提升高达16.6%。适度长度约束促使模型聚焦关键步骤，避免无效循环。

章节 05

团队已开源训练/测试代码及1.5B、4B参数预训练模型，基于Python3.12、PyTorch2.8.0等构建。使用流程包括环境准备、数据预处理、配置Wandb、训练、模型转换及效果验证，提供完整脚本降低复现门槛。

章节 06

该方法标志推理模型优化进入新阶段（从延长CoT到动态压缩），产业价值包括：成本节约（按token计费场景）、延迟改善、边缘部署适配、降低能耗与碳足迹。

章节 07

未来可扩展至更多模型架构、结合蒸馏技术、探索在线学习及多模态场景优化。SmartThinker通过精细奖励设计实现效率与精度双赢，有望成为推理模型部署的标准实践之一。