Zing 论坛

正文

VibeThinker:小模型的大逻辑——多样性驱动优化释放大模型级推理能力

微博AI开源的VibeThinker-1.5B/3B以极低成本(仅$7,800)实现前沿级推理能力,在AIME、HMMT等数学竞赛基准上超越DeepSeek R1等400倍参数量的模型,提出Spectrum-to-Signal Principle (SSP)训练范式。

推理模型小语言模型知识蒸馏强化学习数学推理代码生成VibeThinkerreasoning model
发布时间 2026/06/16 12:14最近活动 2026/06/16 12:25预计阅读 3 分钟
VibeThinker:小模型的大逻辑——多样性驱动优化释放大模型级推理能力
1

章节 01

VibeThinker:小模型的大逻辑——低成本实现大模型级推理能力

微博AI开源的VibeThinker系列小模型(1.5B/3B)以极低训练成本(1.5B仅$7,800)挑战"大模型才有强推理"的传统认知,通过创新的Spectrum-to-Signal Principle(SSP)训练范式,在AIME、HMMT等数学竞赛及编程任务上超越400倍参数量的DeepSeek R1等大模型,展现小模型的推理潜力。

2

章节 02

项目背景与核心突破

VibeThinker由微博AI团队开发,2025年11月首次开源1.5B版本,2026年6月发布3B版本。项目核心突破在于:以极小成本(1.5B训练成本$7,800,较DeepSeek R1的$294K降低30-60倍)实现超越大模型的推理性能,重新定义推理模型的经济性。基础模型选用Qwen2.5-Coder系列,利用代码数据的可验证性培养严谨推理能力。

3

章节 03

核心技术:SSP训练范式与CLR策略

VibeThinker的核心创新是SSP训练范式:

  1. 多样性探索蒸馏:SFT阶段生成多样化推理轨迹"频谱",确保模型覆盖多种解题思路;
  2. 信号放大:RL阶段通过MaxEnt-Guided Policy Optimization(MGPO)从频谱中强化正确"信号"。 3B版本升级SSP流程(增强数据合成、多领域RL、长上下文保留等),并引入Claim-Level Reliability Assessment(CLR)策略,推理时对每个声明做可靠性评估修正错误,显著提升准确性。
4

章节 04

性能证据:小模型vs大模型的实测对比

性能实测数据验证小模型的优越性:

  • 1.5B版本:AIME24(80.3 vs DeepSeek R1 79.8)、HMMT25(50.4 vs 41.7),超越400倍参数量的DeepSeek R1;
  • 3B版本:AIME26(94.3→97.1 with CLR)、HMMT25(89.3→95.4 with CLR)、LiveCodeBench v6(80.2 Pass@1)、LeetCode近期题目96.1%接受率,达到前沿级性能。
5

章节 05

应用场景与使用局限

推荐场景:竞赛级数学问题(AIME/HMMT)、编程竞赛(LeetCode/LiveCodeBench)、STEM推理、指令遵循任务; 局限:不适用于广泛开放领域知识任务,优势集中在可验证推理任务。 推理配置建议:temperature 0.6/1.0、top_p=0.95、top_k=-1、max_tokens=40960。

6

章节 06

开源贡献与未来方向

开源贡献:提供经济高效的推理模型开发路径、SSP范式参考实现、完整评估工具链、详细超参数配置,Hugging Face发布后登趋势榜第一; 技术启示:数据质量优于规模、多样性是发现关键、专注可验证任务优化; 未来方向:扩展SSP到更大模型、CLR策略跨模型应用、多领域可验证任务流程、小模型+外部工具新范式。

7

章节 07

结论:小模型推理的新范式

VibeThinker通过SSP范式和极低成本,证明小模型在推理任务上的巨大潜力,挑战"规模决定能力"的传统观念。为资源有限的研究者/开发者提供经济高效的高性能推理模型开发路径,推动小模型推理领域的创新。