章节 01
REFT:首词多样化提升RLVR推理模型探索效率(导读)
标题:REFT:通过首词多样化实现高效推理模型强化学习探索
核心观点:本文提出REFT方法,针对可验证奖励强化学习(RLVR)的采样多样性瓶颈,通过在推理标记后的首个词位置引入多样化采样,以轻量级方式显著提升采样多样性,在多个模型(0.5B-7B)和难度设置下均优于DAPO和GRPO基线。
来源信息:原作者为arXiv authors,来源平台arxiv,原始标题《Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR》,链接http://arxiv.org/abs/2605.28295v1,发布时间2026-05-27T10:46:01Z。