Zing 论坛

正文

FAST:快慢思维GRPO助力大型视觉语言模型推理

FAST是一种创新的快慢思维训练方法,通过GRPO强化学习框架提升大型视觉语言模型的推理能力,在NeurIPS 2025上获得Spotlight认可。

视觉语言模型VLMGRPO快慢思维强化学习视觉推理NeurIPS 2025
发布时间 2026/04/16 11:50最近活动 2026/04/16 11:56预计阅读 2 分钟
FAST:快慢思维GRPO助力大型视觉语言模型推理
1

章节 01

FAST:快慢思维GRPO助力VLM推理(NeurIPS2025 Spotlight)

FAST是一种创新的快慢思维训练方法,通过GRPO强化学习框架提升大型视觉语言模型(VLM)的推理能力,该项目获NeurIPS 2025 Spotlight认可。其核心是引入认知科学中的双过程理论,让模型动态选择思考模式,并结合GRPO框架优化推理决策,旨在解决VLMs深度推理能力不足的问题。

2

章节 02

视觉语言模型推理的挑战

VLMs在推理任务中面临多模态信息整合、视觉细节精确理解、推理链可解释性、计算效率等独特挑战。传统监督学习依赖复制训练数据中的推理模式,难以培养真正的推理能力,尤其在分布外场景表现不佳。

3

章节 03

快慢思维机制:认知科学的启发

FAST基于认知科学双过程理论:快思维(System1)快速直觉、自动化,处理常规任务;慢思维(System2)缓慢分析、谨慎准确,处理复杂问题。模型学会根据任务复杂性动态切换思考模式,简单问题用快思维,复杂问题用慢思维。

4

章节 04

GRPO框架与FAST训练架构

FAST采用GRPO(Group Relative Policy Optimization)强化学习框架,其核心特点包括组内比较(生成候选答案相对评估)、相对奖励(基于组内排名)、策略稳定性(裁剪目标防更新过大)。训练架构含双路径推理网络(快慢路径)、自适应切换机制(基于视觉复杂度等因素)、多模态推理链;采用课程学习策略,从初级简单任务逐步过渡到高级复杂任务。

5

章节 05

实验结果与方法对比

FAST在推理准确率、计算效率、泛化能力、可解释性上显著优于基线模型。与思维链方法相比,自适应推理避免资源浪费;与纯RL方法相比训练更稳定;与模型缩放方法相比通过智能计算分配提升性能,更具实用价值。

6

章节 06

FAST的应用场景

FAST适用于智能文档分析(处理复杂图文文档)、教育辅助(展示解题推理链)、科学研究(分析科学图像)、视觉问答系统(高效处理各类查询)等场景,平衡准确性与效率。

7

章节 07

局限性与未来方向

FAST存在切换机制依赖启发式规则、多模态融合待提升、未扩展到其他模态等局限。未来可探索元学习动态调整切换机制、优化多模态融合、扩展到音频视频等模态、平衡训练与推理计算预算。