# ReasonLite：0.6B参数的超轻量推理模型挑战10倍体量对手

> AMD开源的ReasonLite-0.6B以极小的参数量实现了惊人的数学推理能力，在AIME24上达到75.2分，超越了Qwen3-8B等10倍体量的模型，为小模型推理能力扩展提供了新思路。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-15T10:11:22.000Z
- 最近活动: 2026-05-15T10:17:32.688Z
- 热度: 150.9
- 关键词: ReasonLite, AMD, 小模型推理, 数学推理, 知识蒸馏, AIME, 轻量级模型, 开源模型
- 页面链接: https://www.zingnex.cn/forum/thread/reasonlite-0-6b10
- Canonical: https://www.zingnex.cn/forum/thread/reasonlite-0-6b10
- Markdown 来源: ingested_event

---

## 引言：小模型的大野心

在大型语言模型不断追求更大参数量的今天，AMD的研究团队却反其道而行之，推出了一款仅有0.6B参数的数学推理模型ReasonLite。令人惊讶的是，这款"小不点"在AIME24数学竞赛基准测试中取得了75.2分的好成绩，不仅远超同体量的Qwen3-0.6B（11.0分），甚至超越了10倍体量的Qwen3-8B（74.6分）。这一成果正在重新定义我们对模型规模与能力关系的认知。

## 项目背景：为什么小模型值得投入

大模型的推理能力固然强大，但部署成本和应用场景受限也是不争的事实。在边缘设备、移动应用和实时交互场景中，小参数模型具有不可替代的优势。然而，传统观念认为小模型在复杂推理任务上存在"能力天花板"。ReasonLite的出现打破了这一刻板印象，证明了通过高质量数据蒸馏，小模型同样可以达到令人瞩目的推理水平。

AMD AGI团队选择开源整个项目，包括模型权重、训练脚本、训练数据以及完整的数据合成与过滤流程，为社区提供了可复现的研究基础。

## 核心技术：两阶段渐进式蒸馏

ReasonLite的训练采用了精心设计的两阶段渐进式蒸馏策略，这种设计体现了对推理能力形成机制的深入理解。

### 第一阶段：短思维链基础训练

第一阶段使用短CoT（Chain of Thought）数据对Qwen3-0.6B进行蒸馏，得到ReasonLite-0.6B-Turbo版本。这一阶段的目标是在保持推理效率的同时建立基础的数学推理能力。结果显示，AIME24准确率从原始的11.0分大幅提升至57.1分，证明了即使是短思维链也能显著激活小模型的推理潜能。

### 第二阶段：长思维链能力强化

第二阶段引入长CoT数据进行深度训练，最终得到ReasonLite-0.6B完整版。长思维链允许模型进行更深入的逐步推导，处理更复杂的数学问题。这一阶段的训练将AIME24成绩进一步提升至75.2分，实现了质的飞跃。

## 数据集构建：质量胜过数量

ReasonLite的成功很大程度上归功于其精心构建的训练数据。研究团队从Polaris（53K）和OpenMathReasoning等优质数据源出发，以GPT-OSS模型作为教师模型，收集了910万条原始生成答案。通过多数投票机制生成伪标签，最终筛选出610万条高质量训练样本，其中包括430万条中等难度数据和180万条高难度数据。

这种"重质轻量"的数据策略与当前业界追求海量数据的风潮形成对比，证明了在推理任务中，数据质量可能比单纯的规模更重要。

## 性能评估：小体量大能量

ReasonLite在多个数学推理基准测试中展现了出色的性能。在AIME24测试中，ReasonLite-0.6B达到75.2分，不仅超越了同系列的Turbo版本（57.1分），更超越了Qwen3-8B（74.6分）、Deepseek-qwen-14B（65.0分）等参数量远超自身的对手。

在更新的AIME25测试中，ReasonLite-0.6B同样取得了62.9分的好成绩，显示出良好的泛化能力。AMC23测试中95.2分的成绩更是证明了其在基础数学推理上的扎实功底。

特别值得关注的是pass@8指标的表现。ReasonLite-0.6B在AIME24上达到90.2%的pass@8，意味着在8次生成中几乎总能得到至少一个正确答案，这对于实际应用场景中的答案验证和重排策略具有重要价值。

## 实践意义与应用前景

ReasonLite的发布对AI社区具有多重意义。首先，它为资源受限场景下的推理任务部署提供了可行方案。其次，它证明了小模型的推理能力扩展定律仍有提升空间，为后续研究指明了方向。

对于开发者而言，ReasonLite提供了完整的训练和评估工具链，包括基于open-r1的训练代码、DeepMath评估框架以及完整的数据处理流程。项目支持ROCm和CUDA两种硬件平台，降低了部署门槛。

## 结语：重新定义小模型的可能性

ReasonLite用0.6B参数实现了75.2分的AIME24成绩，这一数字本身就是一个强有力的声明。它告诉我们，在追求模型规模的同时，不应忽视数据质量、训练策略和蒸馏技术的潜力。对于希望在边缘设备上部署推理能力的开发者，ReasonLite提供了一个令人振奋的新选择。

项目的完全开源也意味着社区可以在此基础上进行进一步的探索和优化。或许在不久的将来，我们会看到更多基于ReasonLite思想的衍生模型，推动小模型推理能力的持续进步。
