Zing 论坛

正文

GRPO推理微调:用组相对策略优化提升小模型的数学推理能力

本项目使用GRPO(Group Relative Policy Optimization)方法对SmolLM2-135M小模型进行微调,通过多目标奖励系统在GSM8K数学数据集上同时优化推理准确性和结构化输出格式。

GRPO强化学习数学推理小模型GSM8K微调DeepSeek结构化输出开源实现
发布时间 2026/04/01 20:35最近活动 2026/04/01 20:51预计阅读 2 分钟
GRPO推理微调:用组相对策略优化提升小模型的数学推理能力
1

章节 01

导读 / 主楼:GRPO推理微调:用组相对策略优化提升小模型的数学推理能力

本项目使用GRPO(Group Relative Policy Optimization)方法对SmolLM2-135M小模型进行微调,通过多目标奖励系统在GSM8K数学数据集上同时优化推理准确性和结构化输出格式。

2

章节 02

小模型推理能力的挑战

大语言模型在数学推理任务上的表现一直是衡量其智能水平的重要指标。然而,强大的推理能力似乎与模型规模密切相关——GPT-4、Claude等闭源大模型表现出色,但开源小模型(1B参数以下)在数学推理上往往力不从心。

这是否意味着小模型注定无法在推理任务上有所建树?GRPO推理微调项目给出了一个令人振奋的答案:通过巧妙的训练方法,即使是只有1.35亿参数的小模型,也能在数学推理上取得显著进步。

3

章节 03

GRPO:组相对策略优化

GRPO(Group Relative Policy Optimization)是一种强化学习方法,由DeepSeek团队在其R1模型训练中首次大规模应用并引起广泛关注。与传统的PPO(Proximal Policy Optimization)相比,GRPO有几个独特优势:

4

章节 04

无需价值模型

PPO通常需要一个单独的价值模型(critic)来估计状态价值,这增加了训练复杂度和内存开销。GRPO通过在同一组样本内进行相对比较来计算优势,无需额外的价值模型。

5

章节 05

组内相对优势计算

GRPO的核心思想是:对于同一个问题,让模型生成多个回答,然后根据这组回答的相对质量来计算每个回答的优势。表现优于组内平均水平的回答获得正优势,反之获得负优势。

6

章节 06

训练稳定性

由于优势计算基于组内相对比较而非绝对奖励值,GRPO对奖励函数的尺度不那么敏感,训练过程更加稳定。

7

章节 07

项目实现细节

本项目展示了如何在资源受限的环境下应用GRPO进行推理微调:

8

章节 08

基础模型选择

选用HuggingFace的SmolLM2-135M-Instruct作为基础模型。这是一个仅有1.35亿参数的小型语言模型,适合在单张消费级GPU(8GB+显存)上训练。选择小模型的用意很明确——证明GRPO方法的有效性不依赖于模型规模。