Zing 论坛

正文

FALCON:用视觉寄存器解决高分辨率多模态大模型的视觉冗余与碎片化问题

FALCON 是哈工大与华为诺亚方舟实验室联合提出的 ICCV 2025 入选工作,通过创新的视觉寄存器技术,同时解决高分辨率多模态大语言模型中的视觉冗余和碎片化两大核心问题,实现了弹性效率与鲁棒感知的平衡。

多模态大模型高分辨率视觉视觉编码ICCV 2025视觉问答文档理解
发布时间 2026/04/05 17:32最近活动 2026/04/05 17:48预计阅读 2 分钟
FALCON:用视觉寄存器解决高分辨率多模态大模型的视觉冗余与碎片化问题
1

章节 01

FALCON:用视觉寄存器解决高分辨率多模态大模型核心问题

FALCON是哈工大深圳与华为诺亚方舟实验室联合提出的ICCV 2025入选工作,通过创新的视觉寄存器技术,同时解决高分辨率多模态大语言模型中的视觉冗余和碎片化两大核心问题,实现弹性效率与鲁棒感知的平衡。该工作已开源完整代码和预训练模型。

2

章节 02

高分辨率视觉编码的两难困境

当前主流多模态大模型处理高分辨率图像时面临两大问题:视觉冗余(高分辨率token信息重叠,浪费计算资源且稀释注意力)和视觉碎片化(分块处理导致连续对象被分割,破坏语义连贯性)。传统方案顾此失彼:token压缩缓解冗余但加剧碎片化,保留完整token则计算成本高。

3

章节 03

视觉寄存器:弹性高效的中间表示

FALCON提出的视觉寄存器是位于视觉编码器与语言模型之间的可学习中间表示层,借鉴计算机寄存器的高速缓存理念。它由固定数量的可学习token组成,原始视觉token通过交叉注意力与寄存器交互,将信息写入寄存器,既限制计算复杂度(解决冗余),又通过自适应融合聚合相关信息(缓解碎片化)。

4

章节 04

双路径信息流动架构设计

FALCON采用双路径信息流动架构:原始高分辨率图像经视觉编码器生成特征图→视觉token先经寄存器层处理(视觉token作为Query,寄存器token作为Key/Value执行交叉注意力,提炼信息到寄存器token)→寄存器token与文本指令拼接送入语言模型。寄存器数量可调,可灵活权衡效率与精度。

5

章节 05

实验验证:效率与精度的双赢

实验验证显示FALCON在视觉问答、图文检索、文档理解等任务上精度领先且计算开销显著降低:相比基线方法,视觉token数量压缩一个数量级仍保持或提升性能。尤其在文档理解任务中优势明显,证明其聚合碎片化信息的有效性。项目开源8B参数模型Falcon-8B(HuggingFace),提供封装良好的推理接口JiutianHDInfer,降低使用门槛。

6

章节 06

工程实现与易用性

FALCON基于PyTorch构建,支持Flash Attention加速,模块化设计清晰。安装流程简洁(conda环境),推理接口友好:指定模型路径和对话模式即可创建实例,inference方法接受图像路径和文本问题返回回答,隐藏预处理细节。同时提供训练脚本和配置示例,支持基础模型继续训练或领域适配。

7

章节 07

技术启示与未来展望

FALCON的技术路线启示:在视觉-语言融合中引入结构化中间表示的价值,视觉寄存器不仅是压缩手段,更是信息重组机制。该思路可延伸到视频时序冗余、3D场景空间碎片化等场景。多模态模型优化应寻求效率与精度等多维度协同优化。

8

章节 08

总结:FALCON的价值与应用场景

FALCON是高分辨率多模态大模型领域的重要进展,通过视觉寄存器同时解决冗余和碎片化问题,实现效率与精度双赢。适用于文档分析、医学影像、遥感图像理解等需要高分辨率视觉输入的应用场景,提供强大实用的解决方案。