# Dropout-GRPO：为连续潜在推理引入变分随机性

> 通过结构化Dropout为潜在推理模型引入必要随机性，使GRPO能够应用于Coconut等连续隐状态模型，GSM8K上pass@1从27.29%提升至29.01%

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T21:21:42.000Z
- 最近活动: 2026-06-10T01:21:37.871Z
- 热度: 0.0
- 关键词: GRPO, 潜在推理, 强化学习, Dropout, Coconut, 变分推断, 推理模型
- 页面链接: https://www.zingnex.cn/forum/thread/dropout-grpo
- Canonical: https://www.zingnex.cn/forum/thread/dropout-grpo
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/团队**：潜在推理模型研究团队
- **来源平台**：arXiv
- **原文标题**：Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning
- **原文链接**：http://arxiv.org/abs/2606.10184v1
- **发布时间**：2026年6月8日

## 背景：GRPO与潜在推理的张力

群组相对策略优化（Group Relative Policy Optimization, GRPO）是DeepSeek-R1等推理模型广泛采用的强化学习算法。其核心机制依赖于群组内K个rollout的多样性——通过比较群组内不同输出的奖励，计算相对优势信号来指导策略更新。

然而，GRPO的这一设计在面对**潜在推理模型**（如Coconut）时遇到了结构性挑战。

### 潜在推理模型的特点

Coconut等潜在推理模型采用连续隐状态进行递归推理，替代了传统的离散思维链（Chain-of-Thought）token。这种设计的优势包括：

- 更紧凑的推理表示
- 可能更高效的推理过程
- 避免显式思维链的token开销

### 确定性困境

潜在推理阶段在给定模型参数和提示的情况下是**确定性**的。这意味着：

- 多次rollout会产生完全相同的轨迹
- 群组内所有样本的奖励$r^{(k)}$相同
- 群组平均优势$A^{(k)} = r^{(k)} - \mu_r$坍缩为零
- GRPO无法获得有效的梯度信号，训练停滞

这一困境使得将群组相对强化学习应用于连续潜在推理变得极为困难。

## Dropout-GRPO：解决方案

研究团队提出了**Dropout-GRPO**，通过结构化Dropout为潜在推理引入必要的随机性。

### 核心思想

方法的核心是在潜在推理阶段应用**结构化Dropout**：

1. 为每个rollout采样一个伯努利掩码（Bernoulli mask）
2. 该掩码在给定rollout的所有潜在递归步骤中保持恒定
3. 通过Dropout引入的参数随机性产生轨迹方差

### 变分解释

这种共享掩码的设计具有深刻的理论意义：

- 每个rollout被视为来自参数变分分布的**后验样本**
- GRPO实际上优化的是贝叶斯模型平均策略的期望奖励
- Dropout提供了参数层面的随机性，而非输入层面的扰动

## 理论保证

研究团队为Dropout-GRPO提供了完整的理论分析：

### 无偏性（Unbiasedness）

在满足一定条件下，Dropout-GRPO的梯度估计是无偏的。这意味着方法不会系统性地偏向某些类型的解。

### 方差缩减

结构化Dropout的设计有助于控制梯度估计的方差，提高训练的稳定性。

### 潜在梯度的良定义性

研究证明了在连续潜在空间中梯度的良定义性，为方法的数学严谨性提供了保障。

## 实验验证

### 基准测试

团队在GSM8K数学推理基准上验证了Dropout-GRPO的有效性：

| 方法 | pass@1 |
|------|--------|
| Coconut基线 | 27.29% |
| Dropout-GRPO | 29.01% |
| **提升** | **+1.72%** |

这一结果表明，Dropout-GRPO成功使GRPO学习在潜在推理模型中变得可行。

### 消融实验

研究还进行了消融实验，验证了：

- 结构化Dropout（跨步骤共享掩码）优于独立Dropout
- 适当的Dropout率对性能至关重要
- 方法在不同模型规模上均有效

## 技术细节

### Dropout掩码设计

```
对于每个rollout k:
  采样掩码 m_k ~ Bernoulli(p_keep)
  对于每个潜在递归步骤 t:
    h_t = f(h_{t-1}, x) * m_k  # 应用共享掩码
```

### 与标准GRPO的对比

| 方面 | 标准GRPO | Dropout-GRPO |
|------|---------|-------------|
| 随机性来源 | 输出采样 | 参数Dropout |
| 轨迹多样性 | 依赖温度参数 | 结构化掩码 |
| 适用模型 | 离散token模型 | 连续潜在模型 |
| 梯度信号 | 标准 | 变分近似 |

## 意义与影响

### 潜在推理的可行性

Dropout-GRPO的成功表明，**潜在推理模型可以通过强化学习进行有效训练**。这为Coconut等架构的进一步发展铺平了道路。

### 计算效率的潜力

潜在推理相比显式思维链具有计算效率优势：

- 更短的序列长度
- 可能更少的推理步骤
- 更低的内存占用

Dropout-GRPO使得这些优势可以通过RL后训练来实现。

### 理论贡献

研究将变分推断与强化学习相结合，为理解参数随机性在策略优化中的作用提供了新视角。

## 局限与未来方向

### 当前局限

- 实验规模相对有限（GSM8K单一基准）
- Dropout率的选择需要调优
- 理论分析基于特定假设

### 未来方向

- 在更大规模模型上验证
- 探索其他变分推断技术
- 结合多种随机性来源
- 应用于其他潜在推理架构

## 总结

Dropout-GRPO通过结构化Dropout为连续潜在推理模型引入了必要的随机性，成功解决了GRPO在潜在推理场景下的应用难题。该方法不仅在GSM8K上取得了性能提升，更重要的是为潜在推理模型的强化学习训练提供了理论基础和实践路径。随着对更高效推理架构的追求，Dropout-GRPO有望成为潜在推理模型后训练的标准方法之一。