章节 01
DeepScan:训练无关的大视觉语言模型视觉推理增强框架导读
DeepScan是一个训练无关的框架,旨在提升大视觉语言模型(LVLMs)在细粒度视觉推理任务上的表现。它通过分层扫描、重新聚焦和证据增强推理三个核心阶段,模拟人类自底向上的推理过程。实验显示,该框架能显著提升模型性能,例如在V*基准测试中,使用Qwen2.5-VL-7B作为骨干模型时总体准确率达90.6%,相比原始模型提升16.3%。
正文
DeepScan 是一个训练无关的框架,通过分层扫描、重新聚焦和证据增强推理三个阶段,显著提升大视觉语言模型在细粒度视觉推理任务上的表现。
章节 01
DeepScan是一个训练无关的框架,旨在提升大视觉语言模型(LVLMs)在细粒度视觉推理任务上的表现。它通过分层扫描、重新聚焦和证据增强推理三个核心阶段,模拟人类自底向上的推理过程。实验显示,该框架能显著提升模型性能,例如在V*基准测试中,使用Qwen2.5-VL-7B作为骨干模型时总体准确率达90.6%,相比原始模型提升16.3%。
章节 02
大视觉语言模型(LVLMs)在图像理解和问答任务中表现强大,但面对需要细粒度视觉定位的复杂推理任务时存在不足。传统粗到细的单次定位策略在复杂场景下脆弱易出错。人类解决视觉难题通常采用自底向上的方式:识别局部线索→恢复完整证据→基于证据推理。DeepScan正是基于这一直觉构建的框架。
章节 03
DeepScan包含三个紧密耦合的阶段:
将图像分块,生成patch级注意力图,提取线索区域,通过点提示分割恢复证据并筛选候选。
对融合的证据裁剪图进行放大/缩小操作,选择包含关键证据的最小视图,去除无关干扰。
构建混合证据记忆(细粒度证据裁剪图+粗粒度精炼视图),组织成多图像提示输入LVLM,生成基于视觉证据的准确答案。
章节 04
DeepScan是即插即用的训练无关框架,可集成到不同LVLM骨干网络,无需额外适配成本,具有高实用价值和部署灵活性。
通过两个可插拔专家增强LVLM能力:
章节 05
DeepScan在多个细粒度视觉推理基准测试中表现出色:
使用Qwen2.5-VL-7B时:
DeepScan-72B在V*基准上达94.2%准确率(k=∞),展现良好扩展性。
章节 06
DeepScan采用面向服务的管道架构,需启动:
官方实现支持:LLaVA-1.5-7B、Qwen2-VL-7B、Qwen2.5-VL-7B/32B/72B。
章节 07
DeepScan为视觉推理领域提供重要技术突破,证明通过精巧管道设计和模拟人类认知过程,可在不增加训练成本的情况下显著提升模型性能。
其应用场景包括:
章节 08
DeepScan代表视觉推理领域的重要进展,通过模仿人类自底向上推理过程,将训练无关方法推向新性能高度。其模块化设计、多专家协作架构及出色实验结果,使其成为增强大视觉语言模型的有力工具。