正文

DeepScan：无需训练即可提升大视觉语言模型的视觉推理能力

DeepScan 是一个训练无关的框架，通过分层扫描、重新聚焦和证据增强推理三个阶段，显著提升大视觉语言模型在细粒度视觉推理任务上的表现。

DeepScan视觉语言模型视觉推理训练无关细粒度理解LVLM计算机视觉多模态AI

发布时间 2026/04/09 11:41最近活动 2026/04/09 11:46预计阅读 3 分钟

章节 01

DeepScan：训练无关的大视觉语言模型视觉推理增强框架导读

DeepScan是一个训练无关的框架，旨在提升大视觉语言模型（LVLMs）在细粒度视觉推理任务上的表现。它通过分层扫描、重新聚焦和证据增强推理三个核心阶段，模拟人类自底向上的推理过程。实验显示，该框架能显著提升模型性能，例如在V*基准测试中，使用Qwen2.5-VL-7B作为骨干模型时总体准确率达90.6%，相比原始模型提升16.3%。

章节 02

视觉推理的瓶颈与DeepScan的设计直觉

大视觉语言模型（LVLMs）在图像理解和问答任务中表现强大，但面对需要细粒度视觉定位的复杂推理任务时存在不足。传统粗到细的单次定位策略在复杂场景下脆弱易出错。人类解决视觉难题通常采用自底向上的方式：识别局部线索→恢复完整证据→基于证据推理。DeepScan正是基于这一直觉构建的框架。

章节 03

DeepScan的核心三阶段架构详解

DeepScan包含三个紧密耦合的阶段：

分层扫描

将图像分块，生成patch级注意力图，提取线索区域，通过点提示分割恢复证据并筛选候选。

重新聚焦

对融合的证据裁剪图进行放大/缩小操作，选择包含关键证据的最小视图，去除无关干扰。

证据增强推理

构建混合证据记忆（细粒度证据裁剪图+粗粒度精炼视图），组织成多图像提示输入LVLM，生成基于视觉证据的准确答案。

章节 04

DeepScan的训练无关性与多专家协作优势

训练无关特性

DeepScan是即插即用的训练无关框架，可集成到不同LVLM骨干网络，无需额外适配成本，具有高实用价值和部署灵活性。

多专家协作

通过两个可插拔专家增强LVLM能力：

搜索专家：用BLIP-ITM生成patch级Grad-CAM注意力图，用于局部线索探索；
视觉专家：提供点提示分割和文本条件检测，官方实现采用LangSAM和SAM2组合。

章节 05

DeepScan的实验结果与性能表现

DeepScan在多个细粒度视觉推理基准测试中表现出色：

V*基准测试

使用Qwen2.5-VL-7B时：

总体准确率90.6%；
属性识别93.0%，空间关系86.8%；
相比原始模型提升：V*基准+16.3%，TreeBench+5.5%。

高分辨率基准

HR-Bench-4K：75.0%；
HR-Bench-8K：72.4%。

规模扩展

DeepScan-72B在V*基准上达94.2%准确率（k=∞），展现良好扩展性。

章节 06

DeepScan的部署架构与支持模型

部署服务

DeepScan采用面向服务的管道架构，需启动：

搜索专家服务（BLIP-ITM + Grad-CAM）；
视觉专家服务（LangSAM检测）；
SAM2分割服务；
LVLM服务（支持LLaVA、Qwen等后端）。

支持模型

官方实现支持：LLaVA-1.5-7B、Qwen2-VL-7B、Qwen2.5-VL-7B/32B/72B。

章节 07

DeepScan的实际意义与应用场景

DeepScan为视觉推理领域提供重要技术突破，证明通过精巧管道设计和模拟人类认知过程，可在不增加训练成本的情况下显著提升模型性能。

其应用场景包括：

需精确定位和细粒度理解的视觉问答系统；
文档分析和图表理解；
医学影像分析；
自动驾驶中的场景理解。

章节 08

DeepScan的总结与领域贡献

DeepScan代表视觉推理领域的重要进展，通过模仿人类自底向上推理过程，将训练无关方法推向新性能高度。其模块化设计、多专家协作架构及出色实验结果，使其成为增强大视觉语言模型的有力工具。