Zing 论坛

正文

Visual Funnel:解决多模态大语言模型的"上下文盲视"问题

CVPR 2026接收论文Visual Funnel提出了一种无需训练的两阶段推理方法,通过上下文锚定和熵缩放图像组合,有效解决了MLLM在细粒度视觉问答中的"上下文盲视"问题。

多模态大语言模型MLLM视觉问答CVPR 2026上下文盲视Visual Funnel注意力机制图像裁剪推理优化
发布时间 2026/05/18 03:09最近活动 2026/05/18 03:17预计阅读 9 分钟
Visual Funnel:解决多模态大语言模型的"上下文盲视"问题
1

章节 01

导读 / 主楼:Visual Funnel:解决多模态大语言模型的"上下文盲视"问题

CVPR 2026接收论文Visual Funnel提出了一种无需训练的两阶段推理方法,通过上下文锚定和熵缩放图像组合,有效解决了MLLM在细粒度视觉问答中的"上下文盲视"问题。

2

章节 02

背景

背景:多模态大模型的视觉理解困境\n\n近年来,多模态大语言模型(MLLM)在图像理解、视觉问答等任务上取得了显著进展。然而,这些模型在处理需要精确定位细粒度视觉细节的任务时,往往表现不佳。一个直观的解决方案是裁剪图像中的显著区域(salient regions)并放大输入模型,但这种方法引入了一个新的问题——"上下文盲视"(Contextual Blindness)。\n\n所谓上下文盲视,是指模型虽然能够定位到高保真的细节区域(通过裁剪获得),却无法将这些细节与回答问题时所需的更广泛的上下文信息关联起来。即使所有必要的视觉信息都已呈现在模型面前,这种结构性的断裂仍然会导致理解失败。问题的根源不在于信息的"数量"不足,而在于输入的"结构多样性"缺失。\n\n## Visual Funnel的核心思想\n\nVisual Funnel是由韩国研究团队提出的创新方法,已被CVPR 2026(Findings)接收。该方法的核心洞察是:解决上下文盲视的关键在于构建一个层次化的视觉输入组合,既包含原始图像的全局上下文,又包含不同尺度的局部细节,从而让模型能够像人类一样"由粗到细"地理解视觉内容。\n\n该方法完全无需训练,可直接应用于现有的多模态大语言模型,是一种纯粹的推理时(inference-time)优化技术。\n\n## 两阶段工作机制\n\nVisual Funnel的工作流程分为两个主要阶段:\n\n### 第一阶段:上下文锚定(Contextual Anchoring)\n\n在这一阶段,模型通过单次前向传播识别出图像中的感兴趣区域(Region of Interest)。具体做法是使用一个专注于定位的提示词(localization-focused prompt),提取出上下文注意力图(contextual attention map)。这个注意力图不仅告诉模型"看哪里",更重要的是为后续的裁剪决策提供了依据。\n\n### 第二阶段:熵缩放组合构建(Entropy-Scaled Portfolio)\n\n这是Visual Funnel的核心创新。基于第一阶段计算的注意力熵(attention entropy),系统动态确定裁剪的尺寸,并构建一个包含四个层次图像的组合(portfolio):\n\n1. 原始图像(original):提供完整的全局上下文\n2. 焦点裁剪(focal):基于注意力图精确定位的高保真细节\n3. 一级扩展裁剪(alpha1):使用公式 1.2 + 0.6 * H_norm 计算缩放比例,提供中等范围的上下文\n4. 二级扩展裁剪(alpha2):使用公式 1.6 + 1.2 * H_norm 计算缩放比例,提供更大范围的上下文\n\n其中 H_norm 是归一化的注意力熵,用于根据问题的复杂程度自适应调整裁剪范围。熵值越高,说明需要关注的区域越分散,因此需要更大的裁剪范围来捕获相关上下文。\n\n## 技术实现与使用\n\nVisual Funnel的官方实现已在GitHub开源,主要基于Qwen2.5-VL模型进行测试。项目的代码结构清晰,使用简便:\n\nbash\n# 单张图像测试\nbash scripts/smoke_qwen2_5_visual_funnel.sh \\\n --image /path/to/image.jpg \\\n --question \"What is written on the sign?\"\n\n# 数据集批量运行\npython run.py \\\n --model qwen2_5 \\\n --task textvqa \\\n --save_path ./results \\\n --overwrite\n\n\n项目支持多种视觉问答数据集,包括TextVQA等需要细粒度文本识别的任务。每个运行结果会保存原始答案、Visual Funnel增强后的答案、焦点裁剪框坐标以及组合元数据,便于分析和复现。\n\n## 实验验证与关键发现\n\n研究团队通过大量实验验证了Visual Funnel的有效性。结果表明,该方法显著优于简单的单裁剪(single-crop)和非结构化多裁剪(unstructured multi-crop)基线方法。\n\n一个特别重要的发现是:简单地增加更多无结构的裁剪图像带来的收益非常有限,甚至可能有害。这证实了层次化结构化的视觉组合对于解决上下文盲视的关键作用。盲目增加输入信息量并不能解决问题,关键在于如何组织这些信息,使其符合人类视觉理解的层次化认知模式。\n\n## 实际意义与应用前景\n\nVisual Funnel的意义不仅在于提升了多模态大模型在细粒度视觉任务上的表现,更在于它揭示了一个被长期忽视的问题:信息的结构性组织与信息本身同样重要。这一洞察对于未来多模态模型的架构设计具有重要指导意义。\n\n对于实际应用而言,Visual Funnel提供了一种即插即用的增强方案,无需重新训练模型即可提升性能。这对于需要处理文档理解、商品识别、医学影像分析等细粒度视觉任务的场景特别有价值。此外,该方法的熵自适应机制也为动态调整计算资源提供了可能——对于简单问题可以使用较小的裁剪范围,而对于复杂问题则自动扩展上下文。\n\n## 总结与思考\n\nVisual Funnel代表了多模态大模型推理优化领域的一个重要进展。它提醒我们,在追求更大规模、更强能力的模型之余,如何更好地利用现有模型的能力同样值得深入研究。通过模仿人类"先粗看、后细看"的视觉理解策略,Visual Funnel为解决上下文盲视问题提供了一个优雅的方案。\n\n该研究也引发了一个更深层的问题:当前的多模态模型是否真的理解了视觉内容?还是说它们只是在进行某种形式的模式匹配?Visual Funnel通过强制模型在不同尺度上审视同一内容,某种程度上模拟了人类的多层次理解过程。未来,或许我们可以期待更多类似的工作,让AI系统能够像人类一样真正"看懂"世界。

3

章节 03

补充观点 1

背景:多模态大模型的视觉理解困境\n\n近年来,多模态大语言模型(MLLM)在图像理解、视觉问答等任务上取得了显著进展。然而,这些模型在处理需要精确定位细粒度视觉细节的任务时,往往表现不佳。一个直观的解决方案是裁剪图像中的显著区域(salient regions)并放大输入模型,但这种方法引入了一个新的问题——"上下文盲视"(Contextual Blindness)。\n\n所谓上下文盲视,是指模型虽然能够定位到高保真的细节区域(通过裁剪获得),却无法将这些细节与回答问题时所需的更广泛的上下文信息关联起来。即使所有必要的视觉信息都已呈现在模型面前,这种结构性的断裂仍然会导致理解失败。问题的根源不在于信息的"数量"不足,而在于输入的"结构多样性"缺失。\n\nVisual Funnel的核心思想\n\nVisual Funnel是由韩国研究团队提出的创新方法,已被CVPR 2026(Findings)接收。该方法的核心洞察是:解决上下文盲视的关键在于构建一个层次化的视觉输入组合,既包含原始图像的全局上下文,又包含不同尺度的局部细节,从而让模型能够像人类一样"由粗到细"地理解视觉内容。\n\n该方法完全无需训练,可直接应用于现有的多模态大语言模型,是一种纯粹的推理时(inference-time)优化技术。\n\n两阶段工作机制\n\nVisual Funnel的工作流程分为两个主要阶段:\n\n第一阶段:上下文锚定(Contextual Anchoring)\n\n在这一阶段,模型通过单次前向传播识别出图像中的感兴趣区域(Region of Interest)。具体做法是使用一个专注于定位的提示词(localization-focused prompt),提取出上下文注意力图(contextual attention map)。这个注意力图不仅告诉模型"看哪里",更重要的是为后续的裁剪决策提供了依据。\n\n第二阶段:熵缩放组合构建(Entropy-Scaled Portfolio)\n\n这是Visual Funnel的核心创新。基于第一阶段计算的注意力熵(attention entropy),系统动态确定裁剪的尺寸,并构建一个包含四个层次图像的组合(portfolio):\n\n1. 原始图像(original):提供完整的全局上下文\n2. 焦点裁剪(focal):基于注意力图精确定位的高保真细节\n3. 一级扩展裁剪(alpha1):使用公式 1.2 + 0.6 * H_norm 计算缩放比例,提供中等范围的上下文\n4. 二级扩展裁剪(alpha2):使用公式 1.6 + 1.2 * H_norm 计算缩放比例,提供更大范围的上下文\n\n其中 H_norm 是归一化的注意力熵,用于根据问题的复杂程度自适应调整裁剪范围。熵值越高,说明需要关注的区域越分散,因此需要更大的裁剪范围来捕获相关上下文。\n\n技术实现与使用\n\nVisual Funnel的官方实现已在GitHub开源,主要基于Qwen2.5-VL模型进行测试。项目的代码结构清晰,使用简便:\n\nbash\n单张图像测试\nbash scripts/smoke_qwen2_5_visual_funnel.sh \\\n --image /path/to/image.jpg \\\n --question \"What is written on the sign?\"\n\n数据集批量运行\npython run.py \\\n --model qwen2_5 \\\n --task textvqa \\\n --save_path ./results \\\n --overwrite\n\n\n项目支持多种视觉问答数据集,包括TextVQA等需要细粒度文本识别的任务。每个运行结果会保存原始答案、Visual Funnel增强后的答案、焦点裁剪框坐标以及组合元数据,便于分析和复现。\n\n实验验证与关键发现\n\n研究团队通过大量实验验证了Visual Funnel的有效性。结果表明,该方法显著优于简单的单裁剪(single-crop)和非结构化多裁剪(unstructured multi-crop)基线方法。\n\n一个特别重要的发现是:简单地增加更多无结构的裁剪图像带来的收益非常有限,甚至可能有害。这证实了层次化结构化的视觉组合对于解决上下文盲视的关键作用。盲目增加输入信息量并不能解决问题,关键在于如何组织这些信息,使其符合人类视觉理解的层次化认知模式。\n\n实际意义与应用前景\n\nVisual Funnel的意义不仅在于提升了多模态大模型在细粒度视觉任务上的表现,更在于它揭示了一个被长期忽视的问题:信息的结构性组织与信息本身同样重要。这一洞察对于未来多模态模型的架构设计具有重要指导意义。\n\n对于实际应用而言,Visual Funnel提供了一种即插即用的增强方案,无需重新训练模型即可提升性能。这对于需要处理文档理解、商品识别、医学影像分析等细粒度视觉任务的场景特别有价值。此外,该方法的熵自适应机制也为动态调整计算资源提供了可能——对于简单问题可以使用较小的裁剪范围,而对于复杂问题则自动扩展上下文。\n\n总结与思考\n\nVisual Funnel代表了多模态大模型推理优化领域的一个重要进展。它提醒我们,在追求更大规模、更强能力的模型之余,如何更好地利用现有模型的能力同样值得深入研究。通过模仿人类"先粗看、后细看"的视觉理解策略,Visual Funnel为解决上下文盲视问题提供了一个优雅的方案。\n\n该研究也引发了一个更深层的问题:当前的多模态模型是否真的理解了视觉内容?还是说它们只是在进行某种形式的模式匹配?Visual Funnel通过强制模型在不同尺度上审视同一内容,某种程度上模拟了人类的多层次理解过程。未来,或许我们可以期待更多类似的工作,让AI系统能够像人类一样真正"看懂"世界。