Zing 论坛

正文

DualVision:融合红外与可见光的多模态大模型,让视觉推理在恶劣天气下依然稳健

威斯康星大学麦迪逊分校与亚马逊团队提出DualVision,通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型,在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升。

multimodalinfraredvision-language modelcross-attentionrobustnessCVPR 2026
发布时间 2026/05/23 03:05最近活动 2026/05/23 03:17预计阅读 2 分钟
DualVision:融合红外与可见光的多模态大模型,让视觉推理在恶劣天气下依然稳健
1

章节 01

【导读】DualVision:融合红外与可见光的多模态大模型,恶劣天气下视觉推理更稳健

威斯康星大学麦迪逊分校与亚马逊团队提出DualVision,通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型,在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升,为自动驾驶、安防监控等多场景提供解决方案。

2

章节 02

背景:RGB视觉的局限性与红外成像的互补价值

当前多模态大语言模型(MLLM)在图像理解、视觉问答等任务上表现亮眼,但这些能力大多建立在RGB可见光图像之上。现实世界中,摄像头经常面临雾霾、运动模糊、夜间低光照等挑战——在这些退化条件下,即使是GPT-4V、Claude等顶尖模型的识别准确率也会大幅下降。

红外成像(Infrared)作为成熟的互补技术,能够在上述恶劣环境中保持稳定的成像质量。然而,如何高效地将红外信息融入大模型,一直是学术界和工业界的开放难题。

3

章节 03

DualVision核心方法:轻量级跨模态融合设计

DualVision的核心创新在于局部化跨模态注意力机制:

  1. 空间对齐的注意力设计:每个RGB图像块仅关注对应空间位置的红外区域,计算量压缩至O(N²),避免简单拼接导致的计算复杂度剧增;
  2. 多尺度渐进融合:通过多组不同感受野的局部注意力层串联,从小区域到大区域捕捉跨模态特征;
  3. 即插即用的兼容性:可直接插入现有MLLM架构(如LLaVA系列),无需大规模改动基座模型。
4

章节 04

证据支持:数据集与实验结果

配套数据集

团队开源两个数据集:

  • DV-204K:约2.5万对配准RGB-红外图像+20.4万条模态感知问答标注(用于指令微调);
  • DV-500:500对测试图像+500组问答对(评估退化场景鲁棒性),数据来源于LLVIP和HDRT数据集并补充QA标注。

实验结果

  • 计算效率:相比RGB-IR拼接方案,实现约75%计算量削减;
  • 鲁棒性提升:在退化场景下显著优于LLaVA 1.5、Qwen2-VL等开源模型及Claude Sonnet 3.5v2等闭源API;
  • 泛化能力:正常光照条件下仍具竞争力,不牺牲常规场景性能。
5

章节 05

应用场景展望:覆盖多领域实际需求

DualVision的技术路线适用于多个场景:

  • 自动驾驶:夜间行车、雾天环境下的感知增强;
  • 安防监控:全天候视频监控的目标识别与行为分析;
  • 工业检测:低光照环境下的设备巡检与缺陷检测;
  • 户外机器人:恶劣天气条件下的导航与避障。
6

章节 06

开源与社区:项目资源与论文进展

该项目已完整开源,包括融合模块代码、预训练与微调脚本、DV-204K和DV-500数据集(QA标注数周内发布)。

论文已被CVPR 2026 Findings接收,项目主页与演示样例可访问:abrarmajeedi.github.io/dualvision。

7

章节 07

技术启示:模态互补+高效融合的实用范式

DualVision验证了"模态互补+高效融合"的技术路线,轻量级方案在算力受限的端侧设备更具实用价值,为多模态大模型落地提供兼顾性能与效率的参考范式。