Zing 论坛

正文

SimpleRL-Zoo:用极简强化学习 recipe 让基础模型获得数学推理能力

香港科技大学 NLP 实验室开源的 SimpleRL-Zoo 项目展示了一种令人惊讶的高效训练方法:仅使用 8K 条数学数据和基于规则的奖励函数,就能让 10 个不同的开源基础模型在数学推理任务上获得 10 到 20 个百分点的绝对准确率提升。

强化学习数学推理GRPO开源模型QwenLlamaMistralDeepSeekVerlvLLM
发布时间 2026/04/16 21:43最近活动 2026/04/16 21:58预计阅读 3 分钟
SimpleRL-Zoo:用极简强化学习 recipe 让基础模型获得数学推理能力
1

章节 01

SimpleRL-Zoo项目导读:极简RL方法显著提升基础模型数学推理能力

香港科技大学NLP实验室开源的SimpleRL-Zoo项目展示了一种高效训练方法:仅用8K条数学数据和基于规则的奖励函数,就能让10个不同开源基础模型(涵盖0.5B到32B参数,包括Llama3、Mistral、DeepSeekMath、Qwen2.5系列等)在数学推理任务上获得10到20个百分点的绝对准确率提升。

2

章节 02

项目背景与核心发现

SimpleRL-Zoo项目为强化学习在大语言模型推理训练领域带来突破。研究团队训练了10个不同架构的基础模型(参数范围0.5B-32B),包括Llama3 8B、Mistral7B/24B、DeepSeekMath7B、Qwen2.5系列(0.5B、1.5B、7B、14B、32B)及Qwen2.5-Math-7B。这些模型在GSM8K、MATH500、Minerva Math、Olympiad Bench、AIME24、AMC23等标准数学推理基准上,准确率提升10至20+个百分点。

3

章节 03

技术方法详解

训练数据设计

采用分层难度递进策略:简单级别(GSM8K、MATH等级1)、中等级别(MATH等级1-4)、困难级别(MATH等级3-5),模拟人类学习路径。

强化学习算法

基于Verl框架实现GRPO(Group Relative Policy Optimization)算法,无需价值函数估计,通过比较同一问题的多个输出优化策略,降低计算开销。结合Ray分布式框架和vLLM推理加速引擎,实现高效并行训练。

奖励函数设计

采用纯基于规则的奖励机制,优势包括可解释性强、稳定性高、成本低(无需额外奖励模型训练)。

4

章节 04

关键实验结果与分析

模型性能提升对比

部分模型训练前后平均准确率:

模型 训练前 训练后 提升幅度
Qwen-2.5-Math-7B 37.2% 59.5% +22.3%
Qwen-2.5-32B 45.9% 61.9% +16.0%
Mistral-Small-24B 27.6% 49.6% +22.0%
DeepSeek-Math-7B 11.3% 29.2% +17.9%
Llama-3.1-8B 10.6% 22.0% +11.4%

Qwen-2.5-Math-7B在AIME24(Pass@1)从13.3%提升到40.0%。

推理行为分析

RL训练增加了模型响应长度,表明更详细的逐步推理,但响应长度增加与自我验证等认知行为无必然关联,不同模型推理模式不同。

5

章节 05

硬件需求与训练效率

  • 最小配置:单张H100/A100-80G GPU可训练Qwen-2.5-0.5B模型
  • 7B/14B模型:2x8 H100-80G GPU,约15小时完成100步训练
  • 32B模型:8x8 H100-80G GPU,约1.5天完成训练

相对 modest 的硬件需求便于复现与扩展。

6

章节 06

开源贡献与社区价值

SimpleRL-Zoo已完全开源,包含:

  • 完整训练代码与配置文件
  • 10个RL训练后模型权重(Hugging Face发布)
  • 中间训练检查点
  • Gradio可视化工具(分析推理过程)
  • 评估脚本与分析工具

基于Apache 2.0许可证,代码依赖Verl框架、vLLM加速,参考Qwen2.5-Math评估代码。

7

章节 07

实际意义与未来展望

项目展示了有限资源下RL训练提升模型推理能力的潜力,对资源受限机构、特定领域(数学教育、科学计算)、模型优化有重要价值。验证了DeepSeek-R1等工作的RL理念,提供可复现路径。

总结:项目通过少量高质量数据和简单奖励机制激发模型深层推理能力,体现"少即是多"哲学。开源性质与丰富文档为后续研究奠定基础。