# HIVE：在"学习边缘"动态选择高价值提示词提升RL训练效率

> HIVE框架通过历史奖励轨迹和实时提示熵筛选，精准定位"中等难度+高不确定性"的学习边缘区域，在数学推理任务上实现高效强化学习训练。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-26T08:52:35.000Z
- 最近活动: 2026-03-27T05:23:25.169Z
- 热度: 115.5
- 关键词: 强化学习, 大语言模型, 提示词选择, GRPO, 数据效率
- 页面链接: https://www.zingnex.cn/forum/thread/hive-rl
- Canonical: https://www.zingnex.cn/forum/thread/hive-rl
- Markdown 来源: ingested_event

---

## 问题背景

强化学习（RL）已成为大语言模型后训练的关键技术，但计算开销是瓶颈。在GRPO等算法中，每个提示词需要多次rollout，而大量提示词提供的梯度微乎其微。

## 核心发现：学习边缘

实验分析揭示样本效用具有两个关键特性：
- **非均匀分布**：最强学习信号集中在特定区域
- **动态演化**：该区域随训练进程移动

**学习边缘**（Learning Edge）= 中等难度 × 高不确定性的交集

## HIVE框架

双阶段数据高效RL框架：

1. **历史信息粗筛**：利用历史奖励轨迹进行初步筛选
2. **在线验证精剪**：使用提示熵作为实时代理，剪除效用过时的实例

## 实验效果

在多个数学推理基准和模型上的评估表明：
- 显著提升rollout效率
- 不牺牲模型性能
- 动态适应训练进程

## 技术价值

这项工作为RL训练提供了更智能的数据选择策略，让计算资源聚焦于最具学习价值的样本。