# VibeThinker：小模型的大逻辑——多样性驱动优化释放大模型级推理能力

> 微博AI开源的VibeThinker-1.5B/3B以极低成本（仅$7,800）实现前沿级推理能力，在AIME、HMMT等数学竞赛基准上超越DeepSeek R1等400倍参数量的模型，提出Spectrum-to-Signal Principle (SSP)训练范式。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T04:14:45.000Z
- 最近活动: 2026-06-16T04:25:32.893Z
- 热度: 150.8
- 关键词: 推理模型, 小语言模型, 知识蒸馏, 强化学习, 数学推理, 代码生成, VibeThinker, reasoning model
- 页面链接: https://www.zingnex.cn/forum/thread/vibethinker
- Canonical: https://www.zingnex.cn/forum/thread/vibethinker
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：WeiboAI
- 来源平台：github
- 原始标题：VibeThinker
- 原始链接：https://github.com/WeiboAI/VibeThinker
- 来源发布时间/更新时间：2026-06-16T04:14:45Z

## 原作者与来源\n\n- **原作者/维护者**: WeiboAI团队（Sen Xu, Yi Zhou, Wei Wang等）\n- **来源平台**: GitHub\n- **原始标题**: VibeThinker: Tiny Model, Big Logic\n- **原始链接**: https://github.com/WeiboAI/VibeThinker\n- **开源时间**: 2025年11月首次开源1.5B版本，2026年6月发布3B版本\n- **技术报告**: https://arxiv.org/abs/2511.06221 (1.5B), https://arxiv.org/abs/2606.16140 (3B)\n\n## 项目概述：小模型的逆袭\n\nVibeThinker是由微博AI团队开发的一系列小型推理模型，包括1.5B和3B两个版本。该项目挑战了"大模型才有强推理能力"的传统认知，证明了通过创新的后训练方法，小模型也能达到甚至超越大模型的推理性能。\n\n最引人注目的是成本效益：VibeThinker-1.5B的训练成本仅为**$7,800**，而达到相似性能的DeepSeek R1和MiniMax-M1的后训练成本分别为$294K和$535K——VibeThinker的成本降低了**30到60倍**。\n\n## VibeThinker-1.5B：小模型的里程碑\n\n### 核心性能\n\nVibeThinker-1.5B在多个数学推理基准上展现出惊人的能力：\n\n| 基准 | VibeThinker-1.5B | DeepSeek R1 | GPT OSS-20B Medium |\n|------|------------------|-------------|-------------------|\n| AIME24 | 80.3 | 79.8 | - |\n| AIME25 | 74.4 | 70.0 | 可比 |\n| HMMT25 | 50.4 | 41.7 | - |\n\n值得注意的是，DeepSeek R1拥有**671B参数**，是VibeThinker-1.5B的**400多倍**。这种参数效率的突破，重新定义了推理模型的经济性。\n\n### Spectrum-to-Signal Principle (SSP)\n\nVibeThinker的核心创新是**Spectrum-to-Signal Principle（频谱到信号原则）**，这是一个系统性的后训练框架：\n\n**第一阶段：多样性探索蒸馏（Two-Stage Diversity-Exploring Distillation）**\n\n在监督微调（SFT）阶段，方法首先探索广泛的解决方案空间，生成多样化的推理轨迹"频谱"。这一阶段的目标是确保模型见过各种类型的解题思路和推理模式。\n\n**第二阶段：信号放大（MaxEnt-Guided Policy Optimization, MGPO）**\n\n在强化学习（RL）阶段，使用最大熵引导的策略优化，从多样化的频谱中识别并放大正确的"信号"。这种方法能够在保持探索的同时，强化正确的推理模式。\n\nSSP的核心洞察是：**多样性是发现高质量推理路径的前提**。通过先生成广泛的候选（频谱），再从中筛选和强化最佳路径（信号），小模型能够学习到更鲁棒的推理策略。\n\n## VibeThinker-3B：升级版的前沿探索\n\n2026年6月发布的VibeThinker-3B在1.5B版本基础上进行了全面升级：\n\n### 性能突破\n\nVibeThinker-3B在可验证推理任务上达到了前沿级性能：\n\n- **AIME26**: 94.3（使用CLR策略提升至97.1）\n- **HMMT25**: 89.3（使用CLR策略提升至95.4）\n- **LiveCodeBench v6**: 80.2 Pass@1\n- **LeetCode周赛/双周赛**: 96.1%接受率（2026年4月25日至5月31日的题目）\n\n这些成绩与参数量大得多的前沿推理系统相当，进一步验证了小型模型在特定任务上的潜力。\n\n### 升级的训练流程\n\nVibeThinker-3B系统性地升级了SSP训练范式：\n\n1. **增强的数据合成与质量过滤**：改进SFT阶段的数据生成和筛选\n2. **多领域强化学习**：将MGPO风格的RL扩展到多个可验证领域\n3. **长上下文推理轨迹保留**：保持完整的推理过程用于训练\n4. **离线自蒸馏**：通过自我蒸馏巩固能力\n5. **指令导向的强化学习**：进一步优化指令遵循能力\n\n### Claim-Level Reliability Assessment (CLR)\n\nVibeThinker-3B引入了**声明级可靠性评估（CLR）**，这是一种测试时的扩展策略：\n\nCLR在推理过程中对每个声明（claim）进行可靠性评估，识别并修正潜在的错误步骤。这种细粒度的自我修正机制能够进一步提升推理准确性。\n\n实验表明，CLR策略将AIME26成绩从94.3提升到97.1，HMMT25从89.3提升到95.4，展示了推理时计算扩展的有效性。\n\n## 技术架构与实现\n\n### 基础模型\n\n- **VibeThinker-1.5B**: 基于Qwen2.5-Coder-1.5B\n- **VibeThinker-3B**: 基于Qwen2.5-Coder-3B\n\n选择代码预训练模型作为基础，是因为代码数据天然具有可验证性，有助于培养模型的严谨推理能力。\n\n### 推理配置建议\n\n项目团队推荐的推理参数：\n\n- **temperature**: 0.6 或 1.0\n- **top_p**: 0.95\n- **top_k**: -1（在vLLM或SGLang中禁用top_k）\n- **max_tokens**: 40960\n\n这些配置在保持输出多样性的同时，确保推理的稳定性。\n\n## 应用场景与局限\n\n### 推荐使用场景\n\nVibeThinker特别适合以下任务：\n\n- **竞赛级数学问题**：AIME、HMMT等数学竞赛题目\n- **编程竞赛题目**：LeetCode、LiveCodeBench等代码评测\n- **STEM推理任务**：具有明确答案的科学推理问题\n- **指令遵循任务**：带有明确约束条件的任务\n\n### 使用局限\n\n项目文档明确指出，对于广泛的开放领域知识任务，更大的通用模型可能仍然更合适。VibeThinker的优势在于**可验证推理任务**，而非通用知识问答。\n\n## 开源贡献与社区影响\n\nVibeThinker的开源为研究社区提供了：\n\n1. **经济高效的推理模型开发路径**：证明了小模型也能达到前沿性能\n2. **SSP训练范式的参考实现**：为后续研究提供了可复现的方法\n3. **完整的评估工具链**：包括数学和代码评测的完整流程\n4. **详细的超参数配置**：降低了复现门槛\n\n项目在Hugging Face上发布后迅速登上趋势榜第一名，显示了社区对小模型高效推理的浓厚兴趣。\n\n## 技术启示与未来方向\n\nVibeThinker的成功带来了几个重要的技术启示：\n\n**数据质量优于模型规模**：通过精心设计的后训练流程，小模型可以学习到高质量的推理模式。这表明在资源受限场景下，投资于训练方法可能比单纯扩大模型规模更有效。\n\n**多样性是发现的关键**：SSP原则强调了多样性在探索阶段的重要性。这一洞察可能适用于其他需要探索复杂解空间的任务。\n\n**可验证任务的专门优化**：VibeThinker专注于具有可靠验证信号的任务，这种专注使其在特定领域达到了超越通用大模型的性能。\n\n未来可能的发展方向包括：\n\n- 将SSP原则扩展到更大规模的模型\n- 探索CLR策略在其他推理模型中的应用\n- 开发更多领域的可验证任务训练流程\n- 研究小模型与外部工具结合的新范式\n\n## 结论\n\nVibeThinker通过创新的SSP训练范式和极低的成本，证明了小模型在推理任务上的巨大潜力。1.5B版本超越400倍参数量的DeepSeek R1，3B版本达到前沿级性能，这些成果挑战了模型规模决定能力的传统观念。对于资源有限的研究者和开发者，VibeThinker提供了一条经济高效的路径来开发高性能推理模型。
