章节 01
【导读】HSIR:让大推理模型自我改进既高效又有效
核心信息
- 来源:arXiv 2026年5月24日发布的论文《Better, Faster: Harnessing Self-Improvement in Large Reasoning Models》(链接:http://arxiv.org/abs/2605.24998v1)
- 核心问题:大推理模型自我改进中存在数据不平衡(简单样本多、困难样本少)和过度思考(冗余推理步骤)两大困境
- 解决方案:HSIR通过"验证-退出"采样策略和内在多样性评分双管齐下
- 效果:推理性能平均提升10.9%,相对推理开销降低42.4%,且适用于多种后训练范式