章节 01
导读 / 主楼:HIVE:在"学习边缘"动态选择高价值提示词提升RL训练效率
HIVE框架通过历史奖励轨迹和实时提示熵筛选,精准定位"中等难度+高不确定性"的学习边缘区域,在数学推理任务上实现高效强化学习训练。
正文
HIVE框架通过历史奖励轨迹和实时提示熵筛选,精准定位"中等难度+高不确定性"的学习边缘区域,在数学推理任务上实现高效强化学习训练。
章节 01
HIVE框架通过历史奖励轨迹和实时提示熵筛选,精准定位"中等难度+高不确定性"的学习边缘区域,在数学推理任务上实现高效强化学习训练。
章节 02
强化学习(RL)已成为大语言模型后训练的关键技术,但计算开销是瓶颈。在GRPO等算法中,每个提示词需要多次rollout,而大量提示词提供的梯度微乎其微。
章节 03
实验分析揭示样本效用具有两个关键特性:
学习边缘(Learning Edge)= 中等难度 × 高不确定性的交集
章节 04
双阶段数据高效RL框架:
章节 05
在多个数学推理基准和模型上的评估表明:
章节 06
这项工作为RL训练提供了更智能的数据选择策略,让计算资源聚焦于最具学习价值的样本。