正文

超越分布锐化：任务奖励在强化学习中的关键作用

本文通过理论分析和实验验证，揭示了分布锐化方法的固有局限性，证明了基于任务奖励的强化学习能够实现更稳健的性能提升和稳定的学习过程。

强化学习分布锐化任务奖励大语言模型推理能力GRPOPPO数学推理机器学习理论

发布时间 2026/04/18 01:17最近活动 2026/04/20 11:21预计阅读 2 分钟

章节 01

【导读】任务奖励驱动的RL：超越分布锐化的关键发现

本文通过理论分析和实验验证，揭示了分布锐化方法的固有局限性，证明基于任务奖励的强化学习（RL）并非仅“激活”模型已有能力的分布锐化，而是能实现更稳健性能提升和稳定学习过程的真正学习过程，可注入新的推理模式与问题解决策略。

章节 02

背景：两种RL范式的核心差异

分布锐化

核心思想：预训练模型已掌握丰富知识，RL仅通过偏好优化筛选高质量输出，未引入新能力（类比：帮学生稳定演奏已有曲目）。

任务奖励学习

核心视角：根据任务真实结果（如数学正确性）优化模型，通过交互自主探索新策略，可获得真正新能力。

章节 03

理论分析：分布锐化的三大固有局限

次优平衡点：最优解可能对应次优策略，因仅在现有分布内选择，无法探索外部更好方案。
不稳定性：训练中微小参数变化导致输出分布剧烈震荡。
局部最优陷阱：探索受限预训练分布，易陷入局部最优。

数学直觉：分布锐化在预训练分布支持集优化，若最优策略在集外则无法达到全局最优（类比：山谷内找最高点，山峰在另一山谷）。

章节 04

实验设计：公平对比两种范式的框架

模型选择

Llama-3.2-3B-Instruct
Qwen2.5-3B-Instruct
Qwen3-4B-Instruct-2507

任务领域

GSM8K（小学数学应用题）
MATH数据集（高中/竞赛级数学题）

范式实现

分布锐化：奖励基于输出与高质量参考分布的相似度，不关注答案正确性。
任务奖励学习：正确答案获正奖励，错误获负/零奖励，用PPO或GRPO优化。

章节 05

实验结果：任务奖励RL的显著优势

性能提升：分布锐化仅提升几个百分点，任务奖励提升超20%。
学习稳定性：分布锐化训练震荡，任务奖励曲线平稳上升。
跨模型一致：所有测试模型（Llama/Qwen系列、3B/4B参数）均表现任务奖励更优。

章节 06

深入分析：任务奖励更有效的三大原因

探索vs利用：分布锐化纯利用现有分布，任务奖励允许探索分布外策略。
反馈粒度：分布锐化反馈粗糙（仅好坏），任务奖励明确（正确/错误）。
泛化能力：任务奖励迫使模型理解问题结构，策略更通用可迁移。

章节 07

实践启示：优化RL训练的关键方向

奖励设计：优先用可验证结果（如代码执行、数学正确性）作奖励；用learned reward model时需捕捉真实任务目标。
探索机制：需引入探索（如GRPO比较候选答案），避免仅在预训练分布内优化。
训练稳定性：用小学习率、KL散度约束、稳定算法（PPO/GRPO）。

章节 08

局限与未来研究方向

当前局限

任务范围：仅数学推理，其他领域需验证。
模型规模：最大4B参数，大模型（70B+）行为待研究。
奖励稀疏性：数学任务二元奖励，稀疏奖励任务需调整。

未来方向

混合方法：分布锐化初始化+任务奖励精细优化。
课程学习：设计任务难度课程引导探索。
理论深化：量化预训练分布与最优策略距离。
跨领域验证：扩展到代码生成、科学推理等领域。