Zing 论坛

正文

CAL-GRPO:校准强化学习让大模型学会"试错中进步"

CAL-GRPO通过创新的尝试级校准策略,解决了多轮思维链推理中的梯度偏差问题,使模型能够在多次尝试中累积经验、逐步改进,显著提升复杂任务求解能力。

强化学习思维链推理多轮尝试GRPO模型校准试错学习Verification@K
发布时间 2026/04/20 15:42最近活动 2026/04/21 13:51预计阅读 2 分钟
CAL-GRPO:校准强化学习让大模型学会"试错中进步"
1

章节 01

【导读】CAL-GRPO:让大模型在试错中进步的校准强化学习

CAL-GRPO通过创新的尝试级校准策略,解决多轮思维链推理中的梯度偏差问题,使模型能够在多次尝试中累积经验、逐步改进,显著提升复杂任务求解能力。本文探索让大语言模型具备多轮迭代改进能力:模型可进行最多K次连续尝试,每次基于之前的失败经验和硬验证器反馈构建更好解决方案。

2

章节 02

背景:从一次性成功到多轮试错的思维转变

当前先进推理模型(如OpenAI o系列、DeepSeek-R1)采用长思维链技术,但隐含“第一次尝试需完美”的假设,与人类试错解决问题(数学家反复推敲定理、程序员调试代码)的方式形成对比。本文目标是让模型具备多轮迭代改进能力,基于历史失败经验和验证反馈优化方案。

3

章节 03

多轮尝试推理的框架设计

模型推理被定义为连续尝试:每次尝试生成完整思维链及答案,外部硬验证器判断对错;后续尝试可访问所有历史(错误路径+反馈),实现识别错误模式、继承有效片段、调整策略、逐步收敛。训练目标为Verification@K——前K次尝试至少一次成功的概率。

4

章节 04

CAL-GRPO:解决梯度偏差的校准强化学习

朴素加权策略(成功尝试正权重、失败负/零权重)存在选择性偏差,忽略前序失败对成功的贡献,导致梯度估计有偏。CAL-GRPO通过尝试级校准因子实现无偏梯度估计:权重考虑自身成败及对后续成功的边际贡献。数学上,将Verification@K分解为条件概率乘积,量化每次尝试的梯度贡献;基于GRPO扩展,保留样本效率优势。

5

章节 05

实验验证:CAL-GRPO的效果优势

合成任务:CAL-GRPO显著优于朴素加权和标准GRPO,收敛更稳定;真实任务(数学GSM8K/MATH、代码HumanEval):Verification@K指标超越基线,学习效率高、泛化稳健;消融实验:移除校准因子性能下降,尝试依赖建模关键。

6

章节 06

对AI推理研究的启示

开辟测试时计算新路径(多轮迭代累积计算 vs 单次长链);适合人机协作(人类反馈可作为验证信号);具备自我改进潜力(主动生成测试、验证输出、调整策略)。

7

章节 07

局限性与未来方向

局限:依赖硬验证器(开放式任务难获取)、固定K值非最优、计算开销大;未来方向:结合软验证器、开发自适应尝试终止策略、应用于多模态推理、兼容模型蒸馏/量化。