正文

VibeThinker：小模型的大逻辑——多样性驱动优化释放大模型级推理能力

微博AI开源的VibeThinker-1.5B/3B以极低成本（仅$7,800）实现前沿级推理能力，在AIME、HMMT等数学竞赛基准上超越DeepSeek R1等400倍参数量的模型，提出Spectrum-to-Signal Principle (SSP)训练范式。

推理模型小语言模型知识蒸馏强化学习数学推理代码生成VibeThinkerreasoning model

发布时间 2026/06/16 12:14最近活动 2026/06/16 12:25预计阅读 3 分钟

章节 01

VibeThinker：小模型的大逻辑——低成本实现大模型级推理能力

微博AI开源的VibeThinker系列小模型（1.5B/3B）以极低训练成本（1.5B仅$7,800）挑战"大模型才有强推理"的传统认知，通过创新的Spectrum-to-Signal Principle（SSP）训练范式，在AIME、HMMT等数学竞赛及编程任务上超越400倍参数量的DeepSeek R1等大模型，展现小模型的推理潜力。

章节 02

项目背景与核心突破

VibeThinker由微博AI团队开发，2025年11月首次开源1.5B版本，2026年6月发布3B版本。项目核心突破在于：以极小成本（1.5B训练成本$7,800，较DeepSeek R1的$294K降低30-60倍）实现超越大模型的推理性能，重新定义推理模型的经济性。基础模型选用Qwen2.5-Coder系列，利用代码数据的可验证性培养严谨推理能力。

章节 03

核心技术：SSP训练范式与CLR策略

VibeThinker的核心创新是SSP训练范式：

多样性探索蒸馏：SFT阶段生成多样化推理轨迹"频谱"，确保模型覆盖多种解题思路；
信号放大：RL阶段通过MaxEnt-Guided Policy Optimization（MGPO）从频谱中强化正确"信号"。 3B版本升级SSP流程（增强数据合成、多领域RL、长上下文保留等），并引入Claim-Level Reliability Assessment（CLR）策略，推理时对每个声明做可靠性评估修正错误，显著提升准确性。

章节 04

性能证据：小模型vs大模型的实测对比

性能实测数据验证小模型的优越性：

1.5B版本：AIME24（80.3 vs DeepSeek R1 79.8）、HMMT25（50.4 vs 41.7），超越400倍参数量的DeepSeek R1；
3B版本：AIME26（94.3→97.1 with CLR）、HMMT25（89.3→95.4 with CLR）、LiveCodeBench v6（80.2 Pass@1）、LeetCode近期题目96.1%接受率，达到前沿级性能。

章节 05

应用场景与使用局限

推荐场景：竞赛级数学问题（AIME/HMMT）、编程竞赛（LeetCode/LiveCodeBench）、STEM推理、指令遵循任务；局限：不适用于广泛开放领域知识任务，优势集中在可验证推理任务。推理配置建议：temperature 0.6/1.0、top_p=0.95、top_k=-1、max_tokens=40960。

章节 06

开源贡献与未来方向

开源贡献：提供经济高效的推理模型开发路径、SSP范式参考实现、完整评估工具链、详细超参数配置，Hugging Face发布后登趋势榜第一； 技术启示：数据质量优于规模、多样性是发现关键、专注可验证任务优化； 未来方向：扩展SSP到更大模型、CLR策略跨模型应用、多领域可验证任务流程、小模型+外部工具新范式。

章节 07