章节 01
【导读】AsymGRPO:重新思考RLVR探索机制——从熵正则化到双向熵调制
本文介绍AsymGRPO框架,通过将策略熵分解为'信息熵'(有益不确定性)和'虚假熵'(无益噪声),实现对正负样本的差异化调制,解决大语言模型在可验证奖励强化学习(RLVR)中的探索受限问题,提升推理能力与泛化性能。
正文
本文介绍AsymGRPO框架,通过将策略熵分解为"信息熵"和"虚假熵",实现对正负样本的差异化调制,解决大语言模型在可验证奖励强化学习中的探索受限问题。
章节 01
本文介绍AsymGRPO框架,通过将策略熵分解为'信息熵'(有益不确定性)和'虚假熵'(无益噪声),实现对正负样本的差异化调制,解决大语言模型在可验证奖励强化学习(RLVR)中的探索受限问题,提升推理能力与泛化性能。
章节 02
近年来,可验证奖励强化学习(RLVR)成为提升大语言模型(LLM)推理能力的主流范式,通过自动验证奖励信号让模型从试错中优化推理策略。但该范式面临根本性瓶颈:策略网络迅速收敛到狭窄解空间,陷入局部最优,倾向重复已知路径,忽视潜在更优方案,限制新颖解法发现与泛化性能。
章节 03
为缓解探索受限,传统采用熵正则化鼓励动作多样性,但在LLM场景存在缺陷:超参数敏感(微小变化导致训练不稳定或性能骤降)、边际收益递减(单纯增加熵正则化提升有限)、盲目性(未区分'好'的多样性与'坏'的噪声)。
章节 04
研究从群体相对策略优化(GRPO)出发,提出策略熵分解:信息熵(保留多样化解法的有益不确定性)、虚假熵(侵蚀推理的无益噪声)。GRPO内嵌隐式熵精炼机制:对正向样本(高奖励轨迹)维持信息熵,对负向样本(低奖励轨迹)抑制虚假熵,但作用方式隐式耦合。
章节 05
AsymGRPO框架核心创新是显式解耦正负样本的熵调制:正向样本主动保留增强信息熵,鼓励成功路径上的探索多样性;负向样本积极压制虚假熵,减少错误方向无效尝试。带来更高可控性(独立调节强度)、更好稳定性(减少超参数干扰)、更强兼容性(与现有熵正则化协同)。
章节 06
在多个基准任务评估显示:AsymGRPO显著优于强基线方法;与现有熵正则化技术结合展现协同潜力;对超参数变化敏感性显著降低。验证了熵精炼框架有效性,为RLVR实践提供指导:应专注精炼熵构成,区分有益与无益不确定性。
章节 07
AsymGRPO揭示关键洞见:熵的质量重于数量、正负样本应差异化处理、隐式机制显式化可提升性能。未来方向包括扩展到更复杂推理任务、探索与其他正则化技术组合、深入信息熵与虚假熵的数学刻画。