# DRPO：重新思考LLM强化学习中的散度正则化方法

> DRPO通过用平滑的优势加权二次正则化器替代硬掩码，在保持信任区域几何的同时提供连续梯度权重，显著提升了大语言模型强化学习训练的稳定性和效率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T17:58:23.000Z
- 最近活动: 2026-06-09T04:51:03.795Z
- 热度: 129.1
- 关键词: 强化学习, PPO, 信任区域, 策略优化, RLHF, 模型对齐, 梯度正则化
- 页面链接: https://www.zingnex.cn/forum/thread/drpo-llm
- Canonical: https://www.zingnex.cn/forum/thread/drpo-llm
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Rethinking the Divergence Regularization in LLM RL
- 原始链接：http://arxiv.org/abs/2606.09821v1
- 来源发布时间/更新时间：2026-06-08T17:58:23Z

## 强化学习在后训练中的关键作用

强化学习（RL）已成为大语言模型后训练阶段的核心组件。从人类反馈中学习的 RLHF 到各种对齐技术，RL 方法在提升模型遵循指令、保持安全性和增强推理能力方面发挥着不可替代的作用。然而，LLM 强化学习面临着独特的挑战。

在实际应用中，LLM 的 RL 训练通常是 off-policy 的，因为训练分布与推理分布之间存在不匹配，且策略更新存在滞后性。这使得信任区域（trust-region）控制成为稳定优化的关键——我们需要确保策略不会在一次更新中偏离太远，导致性能崩溃。

## 现有方法的局限：从PPO到DPPO

主流方法如 PPO（Proximal Policy Optimization）和 GRPO（Group Relative Policy Optimization）使用比率裁剪（ratio-clipping）机制来近似信任区域控制。然而，重要性比率（importance ratio）在长尾词汇表上可能无法准确反映分布偏移，导致信任区域的几何形状被扭曲。

近期提出的 DPPO（Divergence-aware PPO）尝试解决这一问题，它用基于散度的掩码替代比率裁剪，基于采样 token 的绝对概率偏移定义信任区域。但 DPPO 仍然依赖"硬掩码"（hard mask）——一旦某个 token 在有害方向上越过信任区域边界，其梯度就会被完全丢弃，而非得到修正。

## DRPO的核心创新

研究团队提出的 DRPO（Divergence Regularized Policy Optimization，散度正则化策略优化）方法，用平滑的优势加权二次正则化器（smooth advantage-weighted quadratic regularizer）替代了硬掩码。这一改进带来了几个关键优势：

首先，DRPO 保持了与 DPPO 相同的信任区域几何形状，确保策略更新不会偏离太远。其次，它产生了有界且连续的梯度权重，能够衰减发散性更新，同时在边界之外提供修正信号。最重要的是，这种平滑的处理方式避免了硬掩码"非黑即白"的粗暴决策，使训练过程更加稳定。

## 技术细节：从硬掩码到软正则化

DRPO 的数学设计巧妙地平衡了约束强度和优化灵活性。二次正则化项对策略偏移施加惩罚，而优势加权机制确保只有那些真正影响目标函数性能的 token 才会受到严格约束。这种设计使得模型能够在保持探索的同时，避免危险的策略跳跃。

与完全丢弃越界 token 梯度的硬掩码不同，DRPO 的软正则化允许这些 token 以衰减的权重继续贡献梯度，同时提供将策略拉回信任区域的修正信号。这种"软着陆"机制在训练初期尤其重要，此时策略尚不稳定，硬掩码可能导致训练过早陷入局部最优。

## 实验验证：跨规模与架构的稳定性提升

实验涵盖了不同模型规模、架构和精度设置，结果一致表明 DRPO 能够提升 LLM 强化学习训练的稳定性和效率。具体而言，DRPO 减少了训练过程中的方差，使得学习曲线更加平滑，同时也降低了达到目标性能所需的训练步数。

这些发现对于实际部署具有重要意义。强化学习训练通常计算成本高昂，任何能够提升稳定性和效率的改进都能带来显著的资源节约。DRPO 的简洁设计也意味着它可以相对容易地集成到现有的 RLHF 和推理优化流程中。

## 对LLM训练实践的意义

DRPO 的提出提醒我们，在优化算法的设计中，平滑性往往比硬性约束更具优势。对于从事 LLM 后训练和微调的研究者和工程师而言，DRPO 提供了一个经过验证的替代方案，值得在下一个训练任务中尝试。其核心理念——用连续的正则化替代离散的掩码——也可能启发其他领域的算法改进。