Zing 论坛

正文

FIPO:通过未来感知KL散度激发大模型深度推理能力

本文介绍FIPO(Future-KL Influenced Policy Optimization),一种无需价值模型的强化学习方法,通过细粒度的token级信用分配机制,将思维链长度从4000扩展到10000+ tokens,在AIME 2024上取得58%的准确率,超越DAPO和o1-mini。

FIPO强化学习思维链GRPODAPO推理优化大模型训练QwenAIME信用分配
发布时间 2026/04/07 16:44最近活动 2026/04/07 16:51预计阅读 3 分钟
FIPO:通过未来感知KL散度激发大模型深度推理能力
1

章节 01

【导读】FIPO:突破大模型推理长度瓶颈的纯强化学习新方法

阿里巴巴通义实验室开源的FIPO(Future-KL Influenced Policy Optimization)是一种无价值强化学习方法,通过细粒度token级信用分配机制,将思维链长度扩展至10000+ tokens,在AIME 2024上取得58%准确率,超越DAPO和o1-mini,为纯RL训练大模型推理能力开辟新路径。

2

章节 02

背景:传统推理方法的“四千token瓶颈”

主流纯RL推理方法如GRPO、DAPO虽能激发模型推理能力,但推理长度常停滞于4000token左右,限制处理复杂问题(如数学竞赛题、逻辑推理)的能力。如何让模型自发扩展推理深度,成为亟待解决的问题。

3

章节 03

FIPO核心:未来感知的token级信用分配机制

FIPO通过细化token级信用分配突破瓶颈,核心步骤包括:

  1. 局部信号:计算当前与旧策略的对数概率偏移(Δlog p_t),捕捉单个token的策略变化方向;
  2. 未来感知累积:折扣累积未来轨迹信号(FutureKL_t),反映token对长期推理的影响;
  3. 影响力加权:将未来信号映射为有界权重,调整原始优势以引导有效推理;
  4. 损失函数:基于未来感知优势的PPO/DAPO形式,保证训练稳定性与简洁性。
4

章节 04

实验证据:性能与推理长度双突破

在Qwen2.5-32B-Base上的实验结果显示:

  • 性能领先:AIME 2024 Pass@1达58%(峰值)/56%(收敛),超越DAPO(50%)、DeepSeek-R1-Zero(47%)及o1-mini(55%);
  • 长度扩展:平均推理长度突破10000+ tokens,且额外token用于自我反思、重新推导等有效推理,而非冗余;
  • 训练动态:FIPO长度分布持续扩展,准确率与长度呈强正相关,而DAPO长度停滞于4k区间。
5

章节 05

技术实现:基于VeRL/DAPO的架构与参数

FIPO基于VeRL框架和DAPO配方,关键调整包括:

  • 架构参数:actor_rollout_ref.actor.ppo_mini_batch_size从32增至64,loss_mode切换为future_kl;
  • 超参数:折扣因子γ(0.95-0.99)、影响力权重裁剪边界(ε_f,low=0.1/ε_f,high=0.2)、安全阈值5.0;
  • 启动方式:复用DAPO启动器结构,执行bash recipe/fipo/run_fipo_qwen2.5_32b.sh即可启动。
6

章节 06

方法对比:FIPO的核心优势总结

与传统方法相比,FIPO的优势显著:

维度 DAPO FIPO
信用分配 序列级统一优势 Token级未来感知优势
长度增长 4k后停滞 持续扩展到10k+
训练稳定性 良好 通过裁剪保持稳定

核心优势:纯RL训练无需价值模型、细粒度token级信号、长度可扩展、额外长度转化为有效推理、实现简洁易复现。

7

章节 07

应用前景:纯RL推理的潜力与开源价值

FIPO的应用与意义包括:

  • 研究启示:证明纯RL在干净基模型上的潜力,为测试时计算扩展提供训练阶段方案;
  • 实际应用:数学竞赛(复杂证明)、代码生成(迭代修正)、科学研究(假设推导)、教育辅导(详细解题);
  • 开源贡献:发布代码、模型权重及脚本,基于成熟架构便于复现与改进。
8

章节 08

结语:FIPO为深度推理开辟新路径

FIPO通过未来感知KL散度实现细粒度信用分配,突破推理长度瓶颈,将AIME准确率提升至58%,且额外长度转化为自我反思等有效推理。它为大模型推理能力提升提供了不依赖人工长思维链标注的可行路径,随着推理时计算扩展成为趋势,FIPO的训练优化方法将发挥重要作用。