Zing 论坛

正文

HSIR:让大推理模型的自我改进真正奏效

HSIR通过"验证-退出"采样策略和内在多样性评分解决了自改进训练中的数据不平衡和过度思考问题,在提升推理性能的同时显著降低推理开销。

HSIR大推理模型自我改进GRPO数据不平衡过度思考强化学习
发布时间 2026/05/24 18:54最近活动 2026/05/26 13:27预计阅读 3 分钟
HSIR:让大推理模型的自我改进真正奏效
1

章节 01

【导读】HSIR:让大推理模型自我改进既高效又有效

核心信息

  • 来源:arXiv 2026年5月24日发布的论文《Better, Faster: Harnessing Self-Improvement in Large Reasoning Models》(链接:http://arxiv.org/abs/2605.24998v1)
  • 核心问题:大推理模型自我改进中存在数据不平衡(简单样本多、困难样本少)和过度思考(冗余推理步骤)两大困境
  • 解决方案:HSIR通过"验证-退出"采样策略和内在多样性评分双管齐下
  • 效果:推理性能平均提升10.9%,相对推理开销降低42.4%,且适用于多种后训练范式
2

章节 02

背景:大模型自我改进的理想与现实困境

自我改进的理想

大型推理模型(LRMs)有望通过自我生成推理轨迹实现无外部监督的持续提升,看似是通往智能的捷径。

现实的困境

实际中,这种方法在复杂任务上表现不佳甚至崩溃,根源在于两大问题:

  1. 数据不平衡:自我生成数据中简单样本占比高,关键的困难样本稀缺,导致模型陷入舒适区,难以突破能力边界。
  2. 过度思考:大量冗余推理步骤被用于训练,使模型学会生成啰嗦、低效的解决方案,降低效率且易引入错误。
3

章节 03

HSIR核心方法:双管齐下解决两大问题

方法1:验证-退出采样策略

针对数据不平衡,模型生成推理轨迹时会验证中间结果,若路径无法导向正确答案则退出并尝试新路径,确保收集到足够多高质量的困难样本。

方法2:内在多样性评分

量化推理步骤的多样性与必要性,过滤掉冗余冗长的样本,保留简洁高效的解决方案。

H-GRPO增强算法

将内在多样性作为外部奖励,构建双重奖励机制:既奖励正确解决问题,也奖励简洁多样的推理过程,平衡简洁性与多样性。

4

章节 04

实验证据:性能与效率双丰收

性能提升

在多个基准测试中,HSIR使推理性能平均提升10.9%,适用性广泛。

效率优化

相对推理开销降低高达42.4%,实现了"更准且更快"的效果。

跨范式通用

HSIR应用于监督微调、强化学习等多种后训练范式均取得积极效果,证明其普适性。

5

章节 05

深入分析:HSIR有效的三大原因

  1. 数据质量提升:验证-退出策略筛选出高质量困难样本,避免模型在低难度样本上过拟合。
  2. 正则化效应:内在多样性评分惩罚冗长推理,鼓励更简洁泛化的解决方案。
  3. 探索与利用平衡:H-GRPO的双重奖励机制,简洁性奖励利用已知高效策略,多样性奖励探索新路径。
6

章节 06

对推理模型训练的启示

  1. 数据策展至关重要:即使是模型自生成数据,也需精心筛选平衡,盲目使用可能导致训练失败。
  2. 效率与性能并重:传统研究侧重准确性,HSIR表明效率同样关键,实用模型需兼顾两者。
  3. 多目标优化价值:H-GRPO通过同时优化准确性和效率,证明多目标视角可推广到其他场景。
7

章节 07

局限性与未来方向

局限性

  • 验证-退出策略增加了采样成本,需权衡成本与性能。

未来方向

  1. 精细化内在多样性评分,更好捕捉推理质量。
  2. 验证HSIR在不同领域的迁移效果,调整参数适配特定任务。
8

章节 08

结语:HSIR为大模型自我改进铺路

HSIR通过解决数据不平衡和过度思考两大核心问题,让大推理模型的自我改进真正奏效——既提升了推理能力,又显著降低了开销。这一研究提醒我们,自我改进并非"免费午餐",需精心设计数据管理与训练策略。HSIR的思想为构建更强大、更高效的推理模型提供了重要参考,推动AI向"更会思考且更高效思考"的方向发展。