Zing 论坛

正文

MCPO:通过掌握度巩固优化提升大模型推理能力

针对GRPO算法在已掌握和多数正确提示上的训练信号消失问题,提出MCPO框架,通过铰链KL正则化和加权机制优化策略更新,在数学推理基准上持续提升pass@1性能并意外增强pass@k多样性。

RLVRGRPOPolicy OptimizationReasoning ModelsMathematical ReasoningCatastrophic ForgettingExploration DiversityLLM Training
发布时间 2026/04/18 19:43最近活动 2026/04/21 09:55预计阅读 2 分钟
MCPO:通过掌握度巩固优化提升大模型推理能力
1

章节 01

MCPO:通过掌握度巩固优化提升大模型推理能力

MCPO:通过掌握度巩固优化提升大模型推理能力

针对GRPO算法在已掌握提示(准确率近100%)和多数正确提示(50%-100%)上的训练信号问题,本文提出MCPO框架。核心创新包括铰链KL正则化(约束已掌握提示的策略漂移)和多数正确提示加权机制,在数学推理基准上实现pass@1性能持续提升,并意外增强pass@k多样性。

2

章节 02

背景:RLVR与GRPO的兴起

背景:RLVR与GRPO的兴起

强化学习与可验证奖励(RLVR)利用自动验证信号(如数学正确性)提升大模型推理能力,无需人工标注奖励。GRPO作为RLVR家族成员,通过比较同一提示下多个输出的相对质量计算优势函数,避免了传统PPO中单独训练critic模型的开销,性能高效。

3

章节 03

GRPO的核心问题

GRPO的核心问题

问题1:已掌握提示的训练信号消失

当提示准确率接近100%时,所有采样输出均正确,相对优势趋近于零,导致无有效训练信号,引发策略漂移和灾难性遗忘。

问题2:多数正确提示的权重衰减

准确率50%-100%的提示,GRPO查询权重随准确率提升收缩,模型在部分正确到完全掌握阶段优化力度递减,巩固学习被削弱。

4

章节 04

MCPO的关键创新

MCPO的关键创新

创新1:铰链KL正则化

针对已掌握提示,使用铰链损失机制约束策略分布的剧烈变化,仅当漂移超过阈值时施加惩罚,既防止灾难性遗忘又保留有益探索。

创新2:多数正确提示加权机制

重新加权多数正确提示,确保模型在接近掌握阶段仍获得足够训练信号,平滑过渡到完全掌握,提升学习效率。

5

章节 05

实验结果:性能与多样性双重提升

实验结果:性能与多样性双重提升

在GSM8K(小学数学)、MATH(竞赛级)、OlympiadBench(奥林匹克)三个数学基准上,MCPO持续提升pass@1(单次采样准确率)。

意外发现:pass@k(k次采样至少一个正确的概率)显著提升,反映解空间多样性增强。这打破传统认知——巩固学习不仅不限制探索,反而催化多样性,稳定的基础策略为探索提供坚实起点。

6

章节 06

MCPO有效的原因

MCPO有效的原因

稳定基础促进探索

通过防止已掌握知识遗忘,模型获得稳定可靠的基础,可更自信地探索新领域,无需担心破坏已有知识,探索更高效。

优化资源分配

重新加权多数正确提示,避免在已掌握提示上浪费计算,确保接近掌握的问题获得足够关注,学习曲线更平滑高效。

7

章节 07

启示与未来方向

启示与未来方向

对RLVR实践的启示

  • 监控提示掌握度分布
  • 对已掌握提示实施特殊处理(如正则化)
  • 动态调整提示权重优化学习

局限与未来

当前局限:实验集中在数学领域,铰链KL阈值需任务调优,超大规模模型效果待验证。 未来方向:跨领域验证(代码生成、科学推理)、自适应阈值、组合策略、理论分析掌握度与多样性的数学关系。