# FALCON：用视觉寄存器解决高分辨率多模态大模型的视觉冗余与碎片化问题

> FALCON 是哈工大与华为诺亚方舟实验室联合提出的 ICCV 2025 入选工作，通过创新的视觉寄存器技术，同时解决高分辨率多模态大语言模型中的视觉冗余和碎片化两大核心问题，实现了弹性效率与鲁棒感知的平衡。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-05T09:32:39.000Z
- 最近活动: 2026-04-05T09:48:34.691Z
- 热度: 155.7
- 关键词: 多模态大模型, 高分辨率视觉, 视觉编码, ICCV 2025, 视觉问答, 文档理解
- 页面链接: https://www.zingnex.cn/forum/thread/falcon
- Canonical: https://www.zingnex.cn/forum/thread/falcon
- Markdown 来源: ingested_event

---

# FALCON：用视觉寄存器解决高分辨率多模态大模型的视觉冗余与碎片化问题\n\n多模态大语言模型（MLLM）在处理高分辨率图像时面临一个两难困境：一方面，细粒度理解需要高分辨率视觉输入；另一方面，直接处理高分辨率特征会带来计算爆炸和视觉token碎片化。哈工大深圳与华为诺亚方舟实验室联合提出的 FALCON 模型，通过引入"视觉寄存器"（Visual Registers）这一创新机制，巧妙地在效率与精度之间找到了平衡点。该工作已被 ICCV 2025 接收，并开源了完整代码和预训练模型。\n\n## 高分辨率视觉编码的两难困境\n\n当前主流的多模态大模型通常采用视觉编码器（如CLIP ViT）提取图像特征，然后将这些视觉token与文本token拼接送入大语言模型。这种架构在处理高分辨率图像时暴露了两个根本性问题。\n\n首先是视觉冗余问题。高分辨率图像经过编码器后会产生大量视觉token，但这些token中存在大量信息重叠。例如，一张包含天空、草地和人物的照片，天空区域的数百个token可能携带相似的信息。这种冗余不仅浪费计算资源，还会稀释语言模型的注意力，影响对关键区域的聚焦。\n\n其次是视觉碎片化问题。当图像分辨率提高时，编码器往往采用滑动窗口或分块策略处理，这导致原本连续的对象被切分到不同的token组中。一个完整的文字段落可能被分割成多个不连续的token块，破坏了语义连贯性，使得模型难以理解全局结构。\n\n传统解决方案往往顾此失彼：简单的token压缩可以缓解冗余，但会加剧碎片化；保持完整token序列可以保留结构，但计算成本难以接受。FALCON 的核心创新在于用同一套机制同时解决这两个问题。\n\n## 视觉寄存器：弹性高效的中间表示\n\nFALCON 提出的"视觉寄存器"是一种可学习的中间表示层，位于视觉编码器和语言模型之间。它的设计理念借鉴了计算机体系结构中的寄存器概念：作为高速缓存，动态存储和调度关键信息。\n\n具体而言，视觉寄存器是一组固定数量的可学习token（通常远少于原始视觉token数量）。在特征处理过程中，原始视觉token与这些寄存器token进行交叉注意力交互，信息被"写入"寄存器。由于寄存器数量固定且可控，计算复杂度被有效限制，解决了冗余问题。\n\n更重要的是，寄存器机制具有天然的聚合效应。来自图像不同区域的相关信息会在寄存器中汇聚，形成更加紧凑和语义连贯的表示。这种聚合不是简单的平均池化，而是通过注意力机制实现的自适应融合，保留了关键的空间关系和语义结构，从而缓解了碎片化问题。\n\n## 架构设计：双路径信息流动\n\nFALCON 的完整架构包含精心设计的双路径信息流动机制。原始高分辨率图像首先经过视觉编码器，产生高维特征图。这些特征被组织成视觉token序列，但不直接送入语言模型，而是先经过寄存器层处理。\n\n在寄存器层，视觉token作为Query，寄存器token作为Key和Value，执行交叉注意力操作。这一步骤实现了信息的"压缩"：大量视觉token的信息被提炼到少量寄存器token中。随后，这些富含信息的寄存器token作为视觉表示，与文本指令拼接后送入大语言模型。\n\n这种设计的巧妙之处在于，它既保留了高分辨率输入带来的细节优势，又避免了直接处理长序列视觉token的计算负担。寄存器数量是一个可调超参数，用户可以根据应用场景在效率和精度之间灵活权衡。\n\n## 实验验证：效率与精度的双赢\n\n论文在多个基准测试上验证了 FALCON 的有效性。在视觉问答、图文检索、文档理解等任务上，FALCON 不仅取得了领先的精度，还显著降低了计算开销。相比直接处理高分辨率token的基线方法，FALCON 可以将视觉token数量压缩一个数量级，同时保持甚至提升任务性能。\n\n特别值得注意的是文档理解任务的表现。这类任务对高分辨率输入尤为敏感，因为需要识别细小的文字和复杂的版面布局。FALCON 在这一领域的优势尤为明显，证明了视觉寄存器机制在聚合碎片化信息方面的有效性。\n\n项目开源的 8B 参数模型（Falcon-8B）已在 HuggingFace 上发布，开发者可以直接下载使用。代码库提供了封装良好的推理接口 `JiutianHDInfer`，几行代码即可完成模型加载和推理，降低了使用门槛。\n\n## 工程实现与易用性\n\n从工程角度看，FALCON 的实现体现了良好的模块化设计。项目基于 PyTorch 构建，支持 Flash Attention 加速，并提供了完整的训练和评估脚本。安装流程简洁，支持 conda 环境管理，依赖清晰。\n\n推理接口的设计尤为友好。开发者只需指定模型路径和对话模式，即可创建推理实例。`inference` 方法接受图像路径和文本问题，返回模型回答，隐藏了复杂的预处理和后处理细节。这种封装使得 FALCON 可以轻松集成到更大的应用系统中。\n\n对于希望微调模型的研究者，项目也提供了训练脚本和配置示例。支持从基础模型继续训练，也支持加载 FALCON 预训练权重进行领域适配。\n\n## 技术启示与未来展望\n\nFALCON 的技术路线为多模态模型的发展提供了重要启示。它证明了在视觉-语言融合过程中引入结构化中间表示的价值。视觉寄存器不仅是一种压缩手段，更是一种信息重组机制，它能够学习哪些视觉信息对语言理解最重要，并形成更语义化的表示。\n\n这一思路可以延伸到更多场景。例如，视频理解中的时序冗余、3D场景理解中的空间碎片化，都可能从类似的"寄存器"或"记忆"机制中受益。FALCON 的成功也提示我们，多模态模型的优化不应局限于单一维度（如只追求压缩率或只追求精度），而应寻求多维度的协同优化。\n\n## 总结\n\nFALCON 代表了高分辨率多模态大模型领域的重要进展。通过视觉寄存器这一创新设计，它同时解决了视觉冗余和碎片化两大难题，实现了效率与精度的双赢。对于需要处理高分辨率视觉输入的应用场景（如文档分析、医学影像、遥感图像理解等），FALCON 提供了一个既强大又实用的解决方案。
