章节 01
导读:ScaleLogic揭示强化学习训练长程推理的幂律规律
ScaleLogic框架通过可控逻辑推理环境发现:强化学习训练计算量与推理深度呈幂律关系,逻辑表达力的丰富程度决定幂律指数;更富表达力的训练设置可带来高达10.66分的性能提升。该研究为理解大模型长程推理能力的扩展规律提供了新视角。
正文
强化学习能否教会大模型长程推理?ScaleLogic框架通过可控的逻辑推理环境发现:训练计算量与推理深度呈幂律关系,而逻辑表达能力的丰富程度决定了幂律指数。更富表达力的训练设置带来高达10.66分的性能提升。
章节 01
ScaleLogic框架通过可控逻辑推理环境发现:强化学习训练计算量与推理深度呈幂律关系,逻辑表达力的丰富程度决定幂律指数;更富表达力的训练设置可带来高达10.66分的性能提升。该研究为理解大模型长程推理能力的扩展规律提供了新视角。
章节 02
近年来RL被广泛用于提升大模型推理能力,但核心问题未解决:RL训练如何随任务难度扩展?
缺乏可控、可扩展的评估环境:真实推理任务(如数学竞赛题)难以精确控制难度,评估成本高,无法系统性研究训练计算量与任务难度的关系。
章节 03
提供两个独立控制的难度维度:
章节 04
训练计算量T与推理深度D呈幂律关系:T ∝ D^γ(拟合度R²>0.99),幂律指数γ随表达力提升单调增加(1.04→2.60)
章节 05
ScaleLogic首次在受控环境下揭示了RL训练计算量与推理深度的幂律关系,扩展了神经网络Scaling Law的理解;核心发现挑战“简单任务优先”直觉,表明训练内容的“质”与“量”同样重要。该框架为预测和优化推理能力扩展提供了工具。
章节 06
章节 07
合成逻辑任务与真实推理任务(数学证明、科学推理)存在差距