Zing 论坛

正文

AsymGRPO:重新思考RLVR中的探索机制——从熵正则化到双向熵调制

本文介绍AsymGRPO框架,通过将策略熵分解为"信息熵"和"虚假熵",实现对正负样本的差异化调制,解决大语言模型在可验证奖励强化学习中的探索受限问题。

RLVR强化学习大语言模型探索机制熵正则化GRPOAsymGRPO策略优化推理能力机器学习
发布时间 2026/04/07 01:42最近活动 2026/04/07 16:07预计阅读 2 分钟
AsymGRPO:重新思考RLVR中的探索机制——从熵正则化到双向熵调制
1

章节 01

【导读】AsymGRPO:重新思考RLVR探索机制——从熵正则化到双向熵调制

本文介绍AsymGRPO框架,通过将策略熵分解为'信息熵'(有益不确定性)和'虚假熵'(无益噪声),实现对正负样本的差异化调制,解决大语言模型在可验证奖励强化学习(RLVR)中的探索受限问题,提升推理能力与泛化性能。

2

章节 02

背景:RLVR的崛起与探索受限瓶颈

近年来,可验证奖励强化学习(RLVR)成为提升大语言模型(LLM)推理能力的主流范式,通过自动验证奖励信号让模型从试错中优化推理策略。但该范式面临根本性瓶颈:策略网络迅速收敛到狭窄解空间,陷入局部最优,倾向重复已知路径,忽视潜在更优方案,限制新颖解法发现与泛化性能。

3

章节 03

传统方案:熵正则化的局限性

为缓解探索受限,传统采用熵正则化鼓励动作多样性,但在LLM场景存在缺陷:超参数敏感(微小变化导致训练不稳定或性能骤降)、边际收益递减(单纯增加熵正则化提升有限)、盲目性(未区分'好'的多样性与'坏'的噪声)。

4

章节 04

核心洞见:策略熵的分解与GRPO隐式精炼

研究从群体相对策略优化(GRPO)出发,提出策略熵分解:信息熵(保留多样化解法的有益不确定性)、虚假熵(侵蚀推理的无益噪声)。GRPO内嵌隐式熵精炼机制:对正向样本(高奖励轨迹)维持信息熵,对负向样本(低奖励轨迹)抑制虚假熵,但作用方式隐式耦合。

5

章节 05

AsymGRPO:显式解耦的双向熵调制框架

AsymGRPO框架核心创新是显式解耦正负样本的熵调制:正向样本主动保留增强信息熵,鼓励成功路径上的探索多样性;负向样本积极压制虚假熵,减少错误方向无效尝试。带来更高可控性(独立调节强度)、更好稳定性(减少超参数干扰)、更强兼容性(与现有熵正则化协同)。

6

章节 06

实验验证:AsymGRPO的性能表现

在多个基准任务评估显示:AsymGRPO显著优于强基线方法;与现有熵正则化技术结合展现协同潜力;对超参数变化敏感性显著降低。验证了熵精炼框架有效性,为RLVR实践提供指导:应专注精炼熵构成,区分有益与无益不确定性。

7

章节 07

方法论启示与未来研究方向

AsymGRPO揭示关键洞见:熵的质量重于数量、正负样本应差异化处理、隐式机制显式化可提升性能。未来方向包括扩展到更复杂推理任务、探索与其他正则化技术组合、深入信息熵与虚假熵的数学刻画。