章节 01
SimpleRL-Zoo项目导读:极简RL方法显著提升基础模型数学推理能力
香港科技大学NLP实验室开源的SimpleRL-Zoo项目展示了一种高效训练方法:仅用8K条数学数据和基于规则的奖励函数,就能让10个不同开源基础模型(涵盖0.5B到32B参数,包括Llama3、Mistral、DeepSeekMath、Qwen2.5系列等)在数学推理任务上获得10到20个百分点的绝对准确率提升。
正文
香港科技大学 NLP 实验室开源的 SimpleRL-Zoo 项目展示了一种令人惊讶的高效训练方法:仅使用 8K 条数学数据和基于规则的奖励函数,就能让 10 个不同的开源基础模型在数学推理任务上获得 10 到 20 个百分点的绝对准确率提升。
章节 01
香港科技大学NLP实验室开源的SimpleRL-Zoo项目展示了一种高效训练方法:仅用8K条数学数据和基于规则的奖励函数,就能让10个不同开源基础模型(涵盖0.5B到32B参数,包括Llama3、Mistral、DeepSeekMath、Qwen2.5系列等)在数学推理任务上获得10到20个百分点的绝对准确率提升。
章节 02
SimpleRL-Zoo项目为强化学习在大语言模型推理训练领域带来突破。研究团队训练了10个不同架构的基础模型(参数范围0.5B-32B),包括Llama3 8B、Mistral7B/24B、DeepSeekMath7B、Qwen2.5系列(0.5B、1.5B、7B、14B、32B)及Qwen2.5-Math-7B。这些模型在GSM8K、MATH500、Minerva Math、Olympiad Bench、AIME24、AMC23等标准数学推理基准上,准确率提升10至20+个百分点。
章节 03
采用分层难度递进策略:简单级别(GSM8K、MATH等级1)、中等级别(MATH等级1-4)、困难级别(MATH等级3-5),模拟人类学习路径。
基于Verl框架实现GRPO(Group Relative Policy Optimization)算法,无需价值函数估计,通过比较同一问题的多个输出优化策略,降低计算开销。结合Ray分布式框架和vLLM推理加速引擎,实现高效并行训练。
采用纯基于规则的奖励机制,优势包括可解释性强、稳定性高、成本低(无需额外奖励模型训练)。
章节 04
部分模型训练前后平均准确率:
| 模型 | 训练前 | 训练后 | 提升幅度 |
|---|---|---|---|
| Qwen-2.5-Math-7B | 37.2% | 59.5% | +22.3% |
| Qwen-2.5-32B | 45.9% | 61.9% | +16.0% |
| Mistral-Small-24B | 27.6% | 49.6% | +22.0% |
| DeepSeek-Math-7B | 11.3% | 29.2% | +17.9% |
| Llama-3.1-8B | 10.6% | 22.0% | +11.4% |
Qwen-2.5-Math-7B在AIME24(Pass@1)从13.3%提升到40.0%。
RL训练增加了模型响应长度,表明更详细的逐步推理,但响应长度增加与自我验证等认知行为无必然关联,不同模型推理模式不同。
章节 05
相对 modest 的硬件需求便于复现与扩展。
章节 06
SimpleRL-Zoo已完全开源,包含:
基于Apache 2.0许可证,代码依赖Verl框架、vLLM加速,参考Qwen2.5-Math评估代码。
章节 07
项目展示了有限资源下RL训练提升模型推理能力的潜力,对资源受限机构、特定领域(数学教育、科学计算)、模型优化有重要价值。验证了DeepSeek-R1等工作的RL理念,提供可复现路径。
总结:项目通过少量高质量数据和简单奖励机制激发模型深层推理能力,体现"少即是多"哲学。开源性质与丰富文档为后续研究奠定基础。