正文

SimpleRL-Zoo：用极简强化学习 recipe 让基础模型获得数学推理能力

香港科技大学 NLP 实验室开源的 SimpleRL-Zoo 项目展示了一种令人惊讶的高效训练方法：仅使用 8K 条数学数据和基于规则的奖励函数，就能让 10 个不同的开源基础模型在数学推理任务上获得 10 到 20 个百分点的绝对准确率提升。

强化学习数学推理GRPO开源模型QwenLlamaMistralDeepSeekVerlvLLM

发布时间 2026/04/16 21:43最近活动 2026/04/16 21:58预计阅读 3 分钟

SimpleRL-Zoo：用极简强化学习 recipe 让基础模型获得数学推理能力

章节 01

SimpleRL-Zoo项目导读：极简RL方法显著提升基础模型数学推理能力

香港科技大学NLP实验室开源的SimpleRL-Zoo项目展示了一种高效训练方法：仅用8K条数学数据和基于规则的奖励函数，就能让10个不同开源基础模型（涵盖0.5B到32B参数，包括Llama3、Mistral、DeepSeekMath、Qwen2.5系列等）在数学推理任务上获得10到20个百分点的绝对准确率提升。

章节 02

项目背景与核心发现

SimpleRL-Zoo项目为强化学习在大语言模型推理训练领域带来突破。研究团队训练了10个不同架构的基础模型（参数范围0.5B-32B），包括Llama3 8B、Mistral7B/24B、DeepSeekMath7B、Qwen2.5系列（0.5B、1.5B、7B、14B、32B）及Qwen2.5-Math-7B。这些模型在GSM8K、MATH500、Minerva Math、Olympiad Bench、AIME24、AMC23等标准数学推理基准上，准确率提升10至20+个百分点。

章节 03

技术方法详解

训练数据设计

采用分层难度递进策略：简单级别（GSM8K、MATH等级1）、中等级别（MATH等级1-4）、困难级别（MATH等级3-5），模拟人类学习路径。

强化学习算法

基于Verl框架实现GRPO（Group Relative Policy Optimization）算法，无需价值函数估计，通过比较同一问题的多个输出优化策略，降低计算开销。结合Ray分布式框架和vLLM推理加速引擎，实现高效并行训练。

奖励函数设计

采用纯基于规则的奖励机制，优势包括可解释性强、稳定性高、成本低（无需额外奖励模型训练）。

章节 04

关键实验结果与分析

模型性能提升对比

部分模型训练前后平均准确率：

模型	训练前	训练后	提升幅度
Qwen-2.5-Math-7B	37.2%	59.5%	+22.3%
Qwen-2.5-32B	45.9%	61.9%	+16.0%
Mistral-Small-24B	27.6%	49.6%	+22.0%
DeepSeek-Math-7B	11.3%	29.2%	+17.9%
Llama-3.1-8B	10.6%	22.0%	+11.4%

Qwen-2.5-Math-7B在AIME24（Pass@1）从13.3%提升到40.0%。

推理行为分析

RL训练增加了模型响应长度，表明更详细的逐步推理，但响应长度增加与自我验证等认知行为无必然关联，不同模型推理模式不同。

章节 05

硬件需求与训练效率

最小配置：单张H100/A100-80G GPU可训练Qwen-2.5-0.5B模型
7B/14B模型：2x8 H100-80G GPU，约15小时完成100步训练
32B模型：8x8 H100-80G GPU，约1.5天完成训练

相对 modest 的硬件需求便于复现与扩展。

章节 06

开源贡献与社区价值

SimpleRL-Zoo已完全开源，包含：

完整训练代码与配置文件
10个RL训练后模型权重（Hugging Face发布）
中间训练检查点
Gradio可视化工具（分析推理过程）
评估脚本与分析工具

基于Apache 2.0许可证，代码依赖Verl框架、vLLM加速，参考Qwen2.5-Math评估代码。

章节 07

实际意义与未来展望

项目展示了有限资源下RL训练提升模型推理能力的潜力，对资源受限机构、特定领域（数学教育、科学计算）、模型优化有重要价值。验证了DeepSeek-R1等工作的RL理念，提供可复现路径。

总结：项目通过少量高质量数据和简单奖励机制激发模型深层推理能力，体现"少即是多"哲学。开源性质与丰富文档为后续研究奠定基础。