正文

REFT：通过首词多样化实现高效推理模型强化学习探索

可验证奖励强化学习（RLVR）依赖分组采样来探索替代推理路径。本文提出的REFT方法通过在推理标记后的首个词位置引入多样化采样，以轻量级的方式显著提升了采样多样性，在多个模型和难度设置下均优于DAPO和GRPO基线。

可验证奖励强化学习采样多样性首词多样化推理模型REFTGRPODAPO探索增强

发布时间 2026/05/27 18:46最近活动 2026/05/28 10:23预计阅读 2 分钟

章节 01

REFT：首词多样化提升RLVR推理模型探索效率（导读）

标题：REFT：通过首词多样化实现高效推理模型强化学习探索

核心观点：本文提出REFT方法，针对可验证奖励强化学习（RLVR）的采样多样性瓶颈，通过在推理标记后的首个词位置引入多样化采样，以轻量级方式显著提升采样多样性，在多个模型（0.5B-7B）和难度设置下均优于DAPO和GRPO基线。

来源信息：原作者为arXiv authors，来源平台arxiv，原始标题《Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR》，链接http://arxiv.org/abs/2605.28295v1，发布时间2026-05-27T10:46:01Z。

章节 02

研究背景：RLVR是训练推理模型的重要范式，无需预先标注推理轨迹，依赖分组采样让策略模型接触多种替代推理路径，再由验证器评分。但RLVR面临采样多样性不足的核心挑战——路径过于相似限制学习效果。现有方法（调整温度、前缀采样等）存在计算开销大或多样性提升有限的问题。

章节 03

REFT核心机制：

与现有方法对比：

方法类型	计算开销	实现复杂度	对正确性影响
温度调整	中等	低	可能降低正确性
前缀采样	高	中等	需额外存储
采样选择	高	高	引入额外偏差
REFT	低	极低	无影响

章节 04

实验设置：覆盖0.5B-7B四种模型，三种难度（基础/中等/高难度推理问题）。 性能提升：Pass@1/8/64均优于DAPO和GRPO基线，说明首词多样化提升探索效果和正确答案概率。 效率分析：计算开销极低，无需额外存储，训练稳定。

章节 05

技术洞察：

章节 06

应用前景：

章节 07

结论：REFT以极低开销实现RLVR采样多样性显著提升，是简单高效的零侵入增强方案。 未来研究方向：