Zing 论坛

正文

DeepScan:无需训练即可提升大视觉语言模型的视觉推理能力

DeepScan 是一个训练无关的框架,通过分层扫描、重新聚焦和证据增强推理三个阶段,显著提升大视觉语言模型在细粒度视觉推理任务上的表现。

DeepScan视觉语言模型视觉推理训练无关细粒度理解LVLM计算机视觉多模态AI
发布时间 2026/04/09 11:41最近活动 2026/04/09 11:46预计阅读 3 分钟
DeepScan:无需训练即可提升大视觉语言模型的视觉推理能力
1

章节 01

DeepScan:训练无关的大视觉语言模型视觉推理增强框架导读

DeepScan是一个训练无关的框架,旨在提升大视觉语言模型(LVLMs)在细粒度视觉推理任务上的表现。它通过分层扫描、重新聚焦和证据增强推理三个核心阶段,模拟人类自底向上的推理过程。实验显示,该框架能显著提升模型性能,例如在V*基准测试中,使用Qwen2.5-VL-7B作为骨干模型时总体准确率达90.6%,相比原始模型提升16.3%。

2

章节 02

视觉推理的瓶颈与DeepScan的设计直觉

大视觉语言模型(LVLMs)在图像理解和问答任务中表现强大,但面对需要细粒度视觉定位的复杂推理任务时存在不足。传统粗到细的单次定位策略在复杂场景下脆弱易出错。人类解决视觉难题通常采用自底向上的方式:识别局部线索→恢复完整证据→基于证据推理。DeepScan正是基于这一直觉构建的框架。

3

章节 03

DeepScan的核心三阶段架构详解

DeepScan包含三个紧密耦合的阶段:

分层扫描

将图像分块,生成patch级注意力图,提取线索区域,通过点提示分割恢复证据并筛选候选。

重新聚焦

对融合的证据裁剪图进行放大/缩小操作,选择包含关键证据的最小视图,去除无关干扰。

证据增强推理

构建混合证据记忆(细粒度证据裁剪图+粗粒度精炼视图),组织成多图像提示输入LVLM,生成基于视觉证据的准确答案。

4

章节 04

DeepScan的训练无关性与多专家协作优势

训练无关特性

DeepScan是即插即用的训练无关框架,可集成到不同LVLM骨干网络,无需额外适配成本,具有高实用价值和部署灵活性。

多专家协作

通过两个可插拔专家增强LVLM能力:

  • 搜索专家:用BLIP-ITM生成patch级Grad-CAM注意力图,用于局部线索探索;
  • 视觉专家:提供点提示分割和文本条件检测,官方实现采用LangSAM和SAM2组合。
5

章节 05

DeepScan的实验结果与性能表现

DeepScan在多个细粒度视觉推理基准测试中表现出色:

V*基准测试

使用Qwen2.5-VL-7B时:

  • 总体准确率90.6%;
  • 属性识别93.0%,空间关系86.8%;
  • 相比原始模型提升:V*基准+16.3%,TreeBench+5.5%。

高分辨率基准

  • HR-Bench-4K:75.0%;
  • HR-Bench-8K:72.4%。

规模扩展

DeepScan-72B在V*基准上达94.2%准确率(k=∞),展现良好扩展性。

6

章节 06

DeepScan的部署架构与支持模型

部署服务

DeepScan采用面向服务的管道架构,需启动:

  1. 搜索专家服务(BLIP-ITM + Grad-CAM);
  2. 视觉专家服务(LangSAM检测);
  3. SAM2分割服务;
  4. LVLM服务(支持LLaVA、Qwen等后端)。

支持模型

官方实现支持:LLaVA-1.5-7B、Qwen2-VL-7B、Qwen2.5-VL-7B/32B/72B。

7

章节 07

DeepScan的实际意义与应用场景

DeepScan为视觉推理领域提供重要技术突破,证明通过精巧管道设计和模拟人类认知过程,可在不增加训练成本的情况下显著提升模型性能。

其应用场景包括:

  • 需精确定位和细粒度理解的视觉问答系统;
  • 文档分析和图表理解;
  • 医学影像分析;
  • 自动驾驶中的场景理解。
8

章节 08

DeepScan的总结与领域贡献

DeepScan代表视觉推理领域的重要进展,通过模仿人类自底向上推理过程,将训练无关方法推向新性能高度。其模块化设计、多专家协作架构及出色实验结果,使其成为增强大视觉语言模型的有力工具。