章节 01
【导读】CAL-GRPO:让大模型在试错中进步的校准强化学习
CAL-GRPO通过创新的尝试级校准策略,解决多轮思维链推理中的梯度偏差问题,使模型能够在多次尝试中累积经验、逐步改进,显著提升复杂任务求解能力。本文探索让大语言模型具备多轮迭代改进能力:模型可进行最多K次连续尝试,每次基于之前的失败经验和硬验证器反馈构建更好解决方案。
正文
CAL-GRPO通过创新的尝试级校准策略,解决了多轮思维链推理中的梯度偏差问题,使模型能够在多次尝试中累积经验、逐步改进,显著提升复杂任务求解能力。
章节 01
CAL-GRPO通过创新的尝试级校准策略,解决多轮思维链推理中的梯度偏差问题,使模型能够在多次尝试中累积经验、逐步改进,显著提升复杂任务求解能力。本文探索让大语言模型具备多轮迭代改进能力:模型可进行最多K次连续尝试,每次基于之前的失败经验和硬验证器反馈构建更好解决方案。
章节 02
当前先进推理模型(如OpenAI o系列、DeepSeek-R1)采用长思维链技术,但隐含“第一次尝试需完美”的假设,与人类试错解决问题(数学家反复推敲定理、程序员调试代码)的方式形成对比。本文目标是让模型具备多轮迭代改进能力,基于历史失败经验和验证反馈优化方案。
章节 03
模型推理被定义为连续尝试:每次尝试生成完整思维链及答案,外部硬验证器判断对错;后续尝试可访问所有历史(错误路径+反馈),实现识别错误模式、继承有效片段、调整策略、逐步收敛。训练目标为Verification@K——前K次尝试至少一次成功的概率。
章节 04
朴素加权策略(成功尝试正权重、失败负/零权重)存在选择性偏差,忽略前序失败对成功的贡献,导致梯度估计有偏。CAL-GRPO通过尝试级校准因子实现无偏梯度估计:权重考虑自身成败及对后续成功的边际贡献。数学上,将Verification@K分解为条件概率乘积,量化每次尝试的梯度贡献;基于GRPO扩展,保留样本效率优势。
章节 05
合成任务:CAL-GRPO显著优于朴素加权和标准GRPO,收敛更稳定;真实任务(数学GSM8K/MATH、代码HumanEval):Verification@K指标超越基线,学习效率高、泛化稳健;消融实验:移除校准因子性能下降,尝试依赖建模关键。
章节 06
开辟测试时计算新路径(多轮迭代累积计算 vs 单次长链);适合人机协作(人类反馈可作为验证信号);具备自我改进潜力(主动生成测试、验证输出、调整策略)。
章节 07
局限:依赖硬验证器(开放式任务难获取)、固定K值非最优、计算开销大;未来方向:结合软验证器、开发自适应尝试终止策略、应用于多模态推理、兼容模型蒸馏/量化。