章节 01
【导读】任务奖励驱动的RL:超越分布锐化的关键发现
本文通过理论分析和实验验证,揭示了分布锐化方法的固有局限性,证明基于任务奖励的强化学习(RL)并非仅“激活”模型已有能力的分布锐化,而是能实现更稳健性能提升和稳定学习过程的真正学习过程,可注入新的推理模式与问题解决策略。
正文
本文通过理论分析和实验验证,揭示了分布锐化方法的固有局限性,证明了基于任务奖励的强化学习能够实现更稳健的性能提升和稳定的学习过程。
章节 01
本文通过理论分析和实验验证,揭示了分布锐化方法的固有局限性,证明基于任务奖励的强化学习(RL)并非仅“激活”模型已有能力的分布锐化,而是能实现更稳健性能提升和稳定学习过程的真正学习过程,可注入新的推理模式与问题解决策略。
章节 02
核心思想:预训练模型已掌握丰富知识,RL仅通过偏好优化筛选高质量输出,未引入新能力(类比:帮学生稳定演奏已有曲目)。
核心视角:根据任务真实结果(如数学正确性)优化模型,通过交互自主探索新策略,可获得真正新能力。
章节 03
数学直觉:分布锐化在预训练分布支持集优化,若最优策略在集外则无法达到全局最优(类比:山谷内找最高点,山峰在另一山谷)。
章节 04
章节 05
章节 06
章节 07
章节 08