正文

DualVision：融合红外与可见光的多模态大模型，让视觉推理在恶劣天气下依然稳健

威斯康星大学麦迪逊分校与亚马逊团队提出DualVision，通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型，在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升。

multimodalinfraredvision-language modelcross-attentionrobustnessCVPR 2026

发布时间 2026/05/23 03:05最近活动 2026/05/23 03:17预计阅读 2 分钟

章节 01

【导读】DualVision：融合红外与可见光的多模态大模型，恶劣天气下视觉推理更稳健

威斯康星大学麦迪逊分校与亚马逊团队提出DualVision，通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型，在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升，为自动驾驶、安防监控等多场景提供解决方案。

章节 02

当前多模态大语言模型（MLLM）在图像理解、视觉问答等任务上表现亮眼，但这些能力大多建立在RGB可见光图像之上。现实世界中，摄像头经常面临雾霾、运动模糊、夜间低光照等挑战——在这些退化条件下，即使是GPT-4V、Claude等顶尖模型的识别准确率也会大幅下降。

红外成像（Infrared）作为成熟的互补技术，能够在上述恶劣环境中保持稳定的成像质量。然而，如何高效地将红外信息融入大模型，一直是学术界和工业界的开放难题。

章节 03

DualVision的核心创新在于局部化跨模态注意力机制：

章节 04

团队开源两个数据集：

章节 05

DualVision的技术路线适用于多个场景：

章节 06

该项目已完整开源，包括融合模块代码、预训练与微调脚本、DV-204K和DV-500数据集（QA标注数周内发布）。

论文已被CVPR 2026 Findings接收，项目主页与演示样例可访问：abrarmajeedi.github.io/dualvision。

章节 07

DualVision验证了"模态互补+高效融合"的技术路线，轻量级方案在算力受限的端侧设备更具实用价值，为多模态大模型落地提供兼顾性能与效率的参考范式。