Zing 论坛

正文

HIVE:在"学习边缘"动态选择高价值提示词提升RL训练效率

HIVE框架通过历史奖励轨迹和实时提示熵筛选,精准定位"中等难度+高不确定性"的学习边缘区域,在数学推理任务上实现高效强化学习训练。

强化学习大语言模型提示词选择GRPO数据效率
发布时间 2026/03/26 16:52最近活动 2026/03/27 13:23预计阅读 1 分钟
HIVE:在"学习边缘"动态选择高价值提示词提升RL训练效率
1

章节 01

导读 / 主楼:HIVE:在"学习边缘"动态选择高价值提示词提升RL训练效率

HIVE框架通过历史奖励轨迹和实时提示熵筛选,精准定位"中等难度+高不确定性"的学习边缘区域,在数学推理任务上实现高效强化学习训练。

2

章节 02

问题背景

强化学习(RL)已成为大语言模型后训练的关键技术,但计算开销是瓶颈。在GRPO等算法中,每个提示词需要多次rollout,而大量提示词提供的梯度微乎其微。

3

章节 03

核心发现:学习边缘

实验分析揭示样本效用具有两个关键特性:

  • 非均匀分布:最强学习信号集中在特定区域
  • 动态演化:该区域随训练进程移动

学习边缘(Learning Edge)= 中等难度 × 高不确定性的交集

4

章节 04

HIVE框架

双阶段数据高效RL框架:

  1. 历史信息粗筛:利用历史奖励轨迹进行初步筛选
  2. 在线验证精剪:使用提示熵作为实时代理,剪除效用过时的实例
5

章节 05

实验效果

在多个数学推理基准和模型上的评估表明:

  • 显著提升rollout效率
  • 不牺牲模型性能
  • 动态适应训练进程
6

章节 06

技术价值

这项工作为RL训练提供了更智能的数据选择策略,让计算资源聚焦于最具学习价值的样本。