Zing 论坛

正文

REFT:通过首词多样化实现高效推理模型强化学习探索

可验证奖励强化学习(RLVR)依赖分组采样来探索替代推理路径。本文提出的REFT方法通过在推理标记后的首个词位置引入多样化采样,以轻量级的方式显著提升了采样多样性,在多个模型和难度设置下均优于DAPO和GRPO基线。

可验证奖励强化学习采样多样性首词多样化推理模型REFTGRPODAPO探索增强
发布时间 2026/05/27 18:46最近活动 2026/05/28 10:23预计阅读 2 分钟
REFT:通过首词多样化实现高效推理模型强化学习探索
1

章节 01

REFT:首词多样化提升RLVR推理模型探索效率(导读)

标题:REFT:通过首词多样化实现高效推理模型强化学习探索

核心观点:本文提出REFT方法,针对可验证奖励强化学习(RLVR)的采样多样性瓶颈,通过在推理标记后的首个词位置引入多样化采样,以轻量级方式显著提升采样多样性,在多个模型(0.5B-7B)和难度设置下均优于DAPO和GRPO基线。

来源信息:原作者为arXiv authors,来源平台arxiv,原始标题《Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR》,链接http://arxiv.org/abs/2605.28295v1,发布时间2026-05-27T10:46:01Z。

2

章节 02

研究背景:RLVR的探索瓶颈

研究背景:RLVR是训练推理模型的重要范式,无需预先标注推理轨迹,依赖分组采样让策略模型接触多种替代推理路径,再由验证器评分。但RLVR面临采样多样性不足的核心挑战——路径过于相似限制学习效果。现有方法(调整温度、前缀采样等)存在计算开销大或多样性提升有限的问题。

3

章节 03

REFT方法详解:首词多样化机制

REFT核心机制

  1. 首词均匀采样:从模型top-N候选首词中均匀选择,强制探索低概率但可能有效的起点;
  2. 均衡分配:确保每个候选首词获得相同采样机会;
  3. 零侵入设计:仅修改首词采样方式,其他组件(温度、验证器等)不变,易集成。

与现有方法对比

方法类型 计算开销 实现复杂度 对正确性影响
温度调整 中等 可能降低正确性
前缀采样 中等 需额外存储
采样选择 引入额外偏差
REFT 极低 无影响
4

章节 04

实验证据:REFT的有效性验证

实验设置:覆盖0.5B-7B四种模型,三种难度(基础/中等/高难度推理问题)。 性能提升:Pass@1/8/64均优于DAPO和GRPO基线,说明首词多样化提升探索效果和正确答案概率。 效率分析:计算开销极低,无需额外存储,训练稳定。

5

章节 05

技术洞察:关键位置与简单方法的价值

技术洞察

  1. 关键位置价值:首词决定推理链方向,针对性多样化比均匀分配资源更高效;
  2. 多样性与正确性解耦:增加多样性不牺牲准确率;
  3. 简单方法有效性:仅修改首词采样策略,无需复杂架构,效果显著。
6

章节 06

应用前景与扩展建议

应用前景

  • 即插即用:轻松集成到现有RLVR流程;
  • 协同效应:与其他多样性技术结合;
  • 领域扩展:推广到代码生成、文本创作等序列任务; 扩展建议:探索自适应首词候选集调整策略。
7

章节 07

结论与未来研究方向

结论:REFT以极低开销实现RLVR采样多样性显著提升,是简单高效的零侵入增强方案。 未来研究方向

  1. 深入理论分析首词位置重要性及候选集选择;
  2. 验证非数学推理任务有效性;
  3. 结合PPO/DPO等高级RL算法;
  4. 动态调整首词多样化强度。