正文

AVR：面向高效视觉推理的自适应推理路径学习框架

AVR通过将视觉推理分解为感知、逻辑推理和答案应用三个认知功能，让模型动态选择最简响应格式，在保持准确率的同时将token使用量减少50-90%，有效缓解视觉推理模型的过度思考。

视觉推理自适应推理过度思考效率优化多模态模型

发布时间 2026/04/16 10:59最近活动 2026/04/17 10:29预计阅读 2 分钟

章节 01

AVR框架导读：缓解视觉推理过度思考的自适应路径学习

AVR（面向高效视觉推理的自适应推理路径学习框架）通过将视觉推理分解为感知、逻辑推理和答案应用三个认知功能，让模型动态选择最简响应格式，在保持准确率的同时将token使用量减少50-90%，有效缓解视觉推理模型的过度思考问题。

章节 02

视觉推理模型（VRMs）在拓展AI视觉理解能力的同时存在显著效率问题：过度思考。表现为所有任务生成冗长推理链，无论问题复杂度如何。其危害包括推理延迟增加、计算成本上升、用户体验下降、错误累积风险。根源在于推理路径冗余，模型缺乏根据问题调整推理过程的能力。

章节 03

AVR将视觉推理分解为三个核心功能：

章节 04

AVR引入三种响应格式，模型根据问题特性动态选择：

章节 05

AVR采用FS-GRPO训练方法：

章节 06

AVR在多个基准测试中表现：

章节 07

启示：

效率与能力解耦：冗长推理≠强能力，元认知（知道何时深入）更重要；
分层架构优势：感知、推理、应用分离利于模块化和可解释性；
泛化潜力：自适应机制可应用于文本推理、机器人决策等领域。 局限性与未来：格式划分粗糙，需更细粒度选择；可优化格式决策机制；未来探索连续推理调节、结合加速技术、扩展到视频推理场景。

章节 08