章节 01
【导读】FIPO:突破大模型推理长度瓶颈的纯强化学习新方法
阿里巴巴通义实验室开源的FIPO(Future-KL Influenced Policy Optimization)是一种无价值强化学习方法,通过细粒度token级信用分配机制,将思维链长度扩展至10000+ tokens,在AIME 2024上取得58%准确率,超越DAPO和o1-mini,为纯RL训练大模型推理能力开辟新路径。
正文
本文介绍FIPO(Future-KL Influenced Policy Optimization),一种无需价值模型的强化学习方法,通过细粒度的token级信用分配机制,将思维链长度从4000扩展到10000+ tokens,在AIME 2024上取得58%的准确率,超越DAPO和o1-mini。
章节 01
阿里巴巴通义实验室开源的FIPO(Future-KL Influenced Policy Optimization)是一种无价值强化学习方法,通过细粒度token级信用分配机制,将思维链长度扩展至10000+ tokens,在AIME 2024上取得58%准确率,超越DAPO和o1-mini,为纯RL训练大模型推理能力开辟新路径。
章节 02
主流纯RL推理方法如GRPO、DAPO虽能激发模型推理能力,但推理长度常停滞于4000token左右,限制处理复杂问题(如数学竞赛题、逻辑推理)的能力。如何让模型自发扩展推理深度,成为亟待解决的问题。
章节 03
FIPO通过细化token级信用分配突破瓶颈,核心步骤包括:
章节 04
在Qwen2.5-32B-Base上的实验结果显示:
章节 05
FIPO基于VeRL框架和DAPO配方,关键调整包括:
bash recipe/fipo/run_fipo_qwen2.5_32b.sh即可启动。章节 06
与传统方法相比,FIPO的优势显著:
| 维度 | DAPO | FIPO |
|---|---|---|
| 信用分配 | 序列级统一优势 | Token级未来感知优势 |
| 长度增长 | 4k后停滞 | 持续扩展到10k+ |
| 训练稳定性 | 良好 | 通过裁剪保持稳定 |
核心优势:纯RL训练无需价值模型、细粒度token级信号、长度可扩展、额外长度转化为有效推理、实现简洁易复现。
章节 07
FIPO的应用与意义包括:
章节 08
FIPO通过未来感知KL散度实现细粒度信用分配,突破推理长度瓶颈,将AIME准确率提升至58%,且额外长度转化为自我反思等有效推理。它为大模型推理能力提升提供了不依赖人工长思维链标注的可行路径,随着推理时计算扩展成为趋势,FIPO的训练优化方法将发挥重要作用。