# REFT：通过首词多样化实现高效推理模型强化学习探索

> 可验证奖励强化学习（RLVR）依赖分组采样来探索替代推理路径。本文提出的REFT方法通过在推理标记后的首个词位置引入多样化采样，以轻量级的方式显著提升了采样多样性，在多个模型和难度设置下均优于DAPO和GRPO基线。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-27T10:46:01.000Z
- 最近活动: 2026-05-28T02:23:47.490Z
- 热度: 135.4
- 关键词: 可验证奖励强化学习, 采样多样性, 首词多样化, 推理模型, REFT, GRPO, DAPO, 探索增强
- 页面链接: https://www.zingnex.cn/forum/thread/reft
- Canonical: https://www.zingnex.cn/forum/thread/reft
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR
- 原始链接：http://arxiv.org/abs/2605.28295v1
- 来源发布时间/更新时间：2026-05-27T10:46:01Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR\n- 原始链接：http://arxiv.org/abs/2605.28295v1\n- 来源发布时间/更新时间：2026-05-27T10:46:01Z\n\n## 研究背景：RLVR的探索瓶颈\n\n可验证奖励强化学习（Reinforcement Learning with Verifiable Rewards，RLVR）是训练推理模型的一种重要范式。与传统的监督学习方法不同，RLVR不需要预先标注的推理轨迹，而是通过分组采样（grouped rollouts）让策略模型接触多种替代推理路径，再由验证器对这些路径进行评分。\n\n然而，RLVR面临一个核心挑战：**采样多样性**。如果采样得到的推理路径过于相似，模型就无法有效探索解空间，从而限制了学习效果。现有的方法主要通过调整温度参数、前缀采样或采样选择策略来拓宽探索范围，但这些方法要么计算开销较大，要么对多样性的提升有限。\n\n## 关键发现：被忽视的首词位置\n\n研究团队发现了一个结构独特但长期被忽视的位置——**推理标记后的第一个词（first token after the reasoning marker）**。这个位置具有以下重要特性：\n\n### 尖锐峰值与正确性解耦\n\n研究表明，策略模型在首词位置的分布呈现出"尖锐峰值"现象——模型对某些首词有极强的偏好。然而有趣的是，这种偏好与正确性并没有强关联。也就是说，模型偏好的首词并不一定是通往正确答案的最佳起点。\n\n### 高杠杆效应\n\n首词的选择对后续整个推理链有深远影响。不同的首词会将模型引导到完全不同的推理区域，而无需改变正确性信号。这意味着在首词位置引入多样化，可以以最小的代价实现最大的探索收益。\n\n## REFT方法详解\n\n基于上述发现，研究团队提出了**REFT（Rollout Exploration with First-Token Diversification）**，一种轻量级的RLVR增强方法。\n\n### 核心机制\n\nREFT的工作原理简洁而有效：\n\n**首词均匀采样**：在生成推理链的第一个词时，REFT不从模型的概率分布中采样，而是从其top-N候选词中均匀选择。这种均匀采样强制模型探索那些原本概率较低但可能有效的推理起点。\n\n**均衡分配**：REFT确保每个候选首词获得相同数量的采样机会，避免某些首词被过度采样而另一些被忽视。\n\n**零侵入性设计**：REFT的精妙之处在于它只修改首词的采样方式，其他所有组件（温度设置、验证器、奖励计算等）都保持不变。这使得REFT可以轻松集成到任何现有的RLVR流程中。\n\n### 与现有方法的对比\n\n相比其他多样性增强方法，REFT具有明显优势：\n\n| 方法类型 | 计算开销 | 实现复杂度 | 对正确性的影响 |\n|---------|---------|-----------|--------------|\n| 温度调整 | 中等 | 低 | 可能降低正确性 |\n| 前缀采样 | 高 | 中等 | 需要额外存储 |\n| 采样选择 | 高 | 高 | 引入额外偏差 |\n| **REFT** | **低** | **极低** | **无影响** |\n\n## 实验设置与结果\n\n研究团队在广泛的实验设置下验证了REFT的有效性。\n\n### 模型规模覆盖\n\n实验涵盖了从0.5B到7B参数的四种基础模型，验证了REFT在不同规模模型上的普适性。\n\n### 难度设置\n\n实验在三种难度设置下进行：\n\n1. **基础难度**：标准数学推理问题\n2. **中等难度**：需要多步推理的复杂问题\n3. **高难度**：需要创造性思维和深度推理的挑战性问题\n\n### 性能提升\n\n实验结果显示，REFT在多个关键指标上均优于DAPO和GRPO基线：\n\n**Pass@1提升**：在单次采样准确率上，REFT相比基线有显著提升，说明首词多样化不仅增加了探索，还提高了找到正确答案的概率。\n\n**Pass@8提升**：在8次采样中选择最佳答案的准确率上，REFT的优势更加明显，表明多样化采样确实覆盖了更广泛的解空间。\n\n**Pass@64提升**：在64次采样的设置下，REFT仍然保持领先，说明其多样性增强不会随着采样次数增加而失效。\n\n### 效率分析\n\n除了准确率提升，REFT还带来了效率优势：\n\n- **计算开销极低**：首词采样只占整个生成过程的极小部分，均匀采样的额外开销可以忽略不计\n- **无需额外存储**：不像前缀采样需要存储多个前缀，REFT不需要额外的内存开销\n- **训练稳定性**：由于不改变其他组件，REFT不会引入训练不稳定的问题\n\n## 技术洞察与启示\n\nREFT的成功揭示了几个重要的技术洞察：\n\n### 探索的关键位置\n\n研究表明，并非所有位置的多样化都同样重要。首词位置具有特殊的结构重要性，因为它决定了整个推理链的方向。在这个关键位置进行有针对性的多样化，比在整个序列上均匀分配探索资源更加高效。\n\n### 正确性与多样性的解耦\n\nREFT证明了多样性和正确性可以是相对独立的。通过在不改变正确性信号的情况下增加多样性，可以在不牺牲准确率的前提下提升探索效果。\n\n### 简单方法的有效性\n\nREFT的设计哲学是"简单即美"。它没有引入复杂的架构修改或额外的训练阶段，只是改变了一个位置的采样策略，却取得了显著的效果。这提醒我们，有时候最有效的改进来自于对问题本质的深刻理解，而非复杂的技术堆砌。\n\n## 应用前景与扩展方向\n\nREFT的轻量级特性使其具有很强的实用价值：\n\n### 即插即用的增强\n\n任何使用RLVR训练推理模型的团队都可以轻松集成REFT，无需修改现有的训练流程或基础设施。\n\n### 与其他技术的结合\n\nREFT可以与其他多样性增强技术结合使用，产生协同效应。例如，可以在使用REFT的同时适度调整温度参数，进一步拓宽探索范围。\n\n### 扩展到其他领域\n\n虽然REFT在数学推理任务上验证，但其核心思想——识别关键决策位置并进行有针对性的多样化——可以推广到其他序列生成任务，如代码生成、文本创作等。\n\n### 自适应首词选择\n\n未来可以探索根据问题特征动态调整首词候选集的大小和组成，实现更智能的多样化策略。\n\n## 局限性与未来研究\n\n研究团队也指出了一些值得进一步探索的方向：\n\n1. **理论理解**：需要更深入的理论分析来解释为什么首词位置如此重要，以及如何最优地选择候选词集合\n2. **任务迁移**：验证REFT在非数学推理任务上的有效性\n3. **与高级RL算法的结合**：探索REFT与PPO、DPO等更高级强化学习算法的结合效果\n4. **动态调整**：研究如何根据训练进度动态调整首词多样化的强度\n\n## 结论\n\nREFT通过关注推理链的起始位置——首词——以极低的计算开销实现了显著的探索多样性提升。这一方法不仅在实验中表现出色，更重要的是它揭示了一个深刻的洞察：有时候，问题的关键不在于增加复杂度，而在于找到正确的切入点。REFT为RLVR的训练提供了一个简单、高效、零侵入的增强方案，有望成为推理模型训练的标准配置。