# SU-01：简单统一的规模化方法实现奥赛金牌级推理能力

> 研究团队通过反向困惑度课程学习、两阶段强化学习和测试时扩展，仅用30B-A3B骨干模型和340K条轨迹数据就训练出SU-01，在IMO和IPhO竞赛中达到金牌水平。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-13T10:13:26.000Z
- 最近活动: 2026-05-14T04:52:27.531Z
- 热度: 130.3
- 关键词: 奥赛推理, 强化学习, 课程学习, SU-01, 数学推理, 物理推理, 测试时扩展
- 页面链接: https://www.zingnex.cn/forum/thread/su-01
- Canonical: https://www.zingnex.cn/forum/thread/su-01
- Markdown 来源: ingested_event

---

## 背景：推理模型的奥赛挑战\n\n国际数学奥林匹克（IMO）和国际物理奥林匹克（IPhO）代表着人类逻辑思维的最高水平。这些竞赛题目不仅需要深厚的知识储备，更需要创造性的问题分解、严密的逻辑推理和精确的计算验证。长期以来，这些挑战被认为是AI难以攻克的堡垒。\n\n近年来，随着推理模型技术的快速发展，AI在奥赛题目上的表现取得了突破性进展。从早期的完全无法求解，到能够在部分题目上得分，再到如今达到金牌水平，这一进步速度令人瞩目。然而，现有方法往往依赖复杂的训练流程、海量数据和庞大的模型规模，训练成本极高。\n\n一个自然的问题是：**是否存在更简单、更统一的方法，能够在合理的资源投入下实现奥赛金牌级性能？**这篇论文给出了肯定的答案。\n\n## SU-01训练方法：简单统一的规模化配方\n\n研究团队提出了一套简洁而有效的训练配方，包含三个核心阶段：\n\n### 阶段一：反向困惑度课程学习（Reverse-Perplexity Curriculum SFT）\n\n传统的监督微调（SFT）通常随机采样训练数据，而SU-01采用了精心设计的**反向困惑度课程**。其核心思想是：\n\n- **困惑度（Perplexity）**衡量语言模型对文本的预测难度，高困惑度意味着模型认为该文本"出乎意料"\n- 研究团队按照困惑度从高到低的顺序组织训练数据，让模型先学习最困难、最反直觉的推理模式\n- 这种\"由难到易\"的课程设计迫使模型建立更 robust 的推理策略，而不是依赖简单的模式匹配\n\n通过这种方法，模型学会了**严格的证明搜索和自我检查行为**。它不再只是生成看似合理的答案，而是学会了系统地探索解题路径、验证中间步骤、发现和纠正错误。这些行为是求解复杂奥赛题目的基础。\n\n### 阶段二：两阶段强化学习（Two-Stage RL Pipeline）\n\nSFT之后，模型进入强化学习阶段，分为两个子阶段：\n\n**第一子阶段：可验证奖励的RL**。在这一阶段，模型通过强化学习优化可自动验证的指标，如答案正确性、证明完整性等。这些奖励信号明确且可靠，帮助模型巩固基本的解题能力。\n\n**第二子阶段：证明级精细RL**。在掌握基础能力后，模型进入更精细的训练阶段，关注证明过程的优雅性、简洁性和逻辑严密性。这一阶段的奖励信号更加微妙，需要更精细的优化策略。\n\n两阶段设计体现了渐进式学习的思想：先建立基础能力，再追求精益求精。这与人类学习复杂技能的过程高度相似。\n\n### 阶段三：测试时扩展（Test-Time Scaling）\n\n训练完成后，SU-01还配备了测试时的扩展策略。在推理阶段，模型可以：\n\n- 生成更长的推理链（超过10万token）\n- 进行多路径探索和验证\n- 动态分配计算资源到最有希望的解题方向\n\n这种测试时的计算扩展使得模型能够在困难问题上投入更多认知资源，类似于人类面对难题时会进行更深入的思考。\n\n## 实验结果：金牌级性能\n\n研究团队使用30B参数激活、3B参数激活的专家混合（MoE）架构作为骨干，训练出了SU-01模型。训练数据仅包含约34万条短于8K token的推理轨迹，强化学习阶段仅进行200步更新。\n\n尽管资源投入相对克制，SU-01的表现令人印象深刻：\n\n**数学竞赛**：在IMO 2025和USAMO 2026试题上达到金牌水平\n\n**物理竞赛**：在IPhO 2024和2025试题上同样达到金牌水平\n\n**长程推理稳定性**：SU-01能够在生成长度超过10万token的推理链时保持稳定，这对于复杂的多步推理至关重要\n\n**跨领域泛化**：模型展现出强大的科学推理泛化能力，能够处理超出数学和物理训练分布的问题\n\n## 方法论的启示\n\nSU-01的成功提供了几个重要的方法论启示：\n\n**数据质量优于数量**。34万条精心筛选的短轨迹，效果可能优于数百万条低质量的长轨迹。反向困惑度课程确保了每条训练样本都能有效提升模型能力。\n\n**课程设计的重要性**。\"由难到易\"的训练顺序迫使模型学习更本质的推理策略，而不是过度拟合简单模式。这与传统\"由易到难\"的课程学习形成对比。\n\n**渐进式强化学习**。从可验证奖励到精细证明级优化的两阶段设计，体现了能力构建的渐进性。试图一步到位往往导致训练不稳定或次优解。\n\n**测试时计算的价值**。训练好的模型通过测试时的计算扩展，可以在不增加模型参数的情况下显著提升性能。这提示我们：推理能力的瓶颈可能不仅在于模型大小，还在于如何有效利用计算资源。\n\n## 局限与未来方向\n\n论文也指出了当前工作的局限。首先，SU-01在某些类型的几何问题上表现仍有提升空间，这可能与训练数据中几何证明的表示方式有关。其次，虽然模型在标准竞赛题上表现优异，但在更具创造性的开放性问题上的表现还需进一步评估。\n\n未来研究方向包括：将方法扩展到更多科学领域（如化学、生物）；探索更大规模模型上的效果；以及研究如何进一步降低训练数据需求。\n\n## 总结\n\nSU-01通过简单统一的训练配方，在相对克制的资源投入下实现了奥赛金牌级性能。其核心贡献在于证明了：通过精心设计的课程学习、渐进式强化学习和测试时扩展，中等规模的模型也能够掌握复杂的科学推理能力。这一结果为推理模型的民主化提供了新的可能性——高性能推理能力不再只是科技巨头的专利。