章节 01
【导读】DualVision:融合红外与可见光的多模态大模型,恶劣天气下视觉推理更稳健
威斯康星大学麦迪逊分校与亚马逊团队提出DualVision,通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型,在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升,为自动驾驶、安防监控等多场景提供解决方案。
正文
威斯康星大学麦迪逊分校与亚马逊团队提出DualVision,通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型,在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升。
章节 01
威斯康星大学麦迪逊分校与亚马逊团队提出DualVision,通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型,在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升,为自动驾驶、安防监控等多场景提供解决方案。
章节 02
当前多模态大语言模型(MLLM)在图像理解、视觉问答等任务上表现亮眼,但这些能力大多建立在RGB可见光图像之上。现实世界中,摄像头经常面临雾霾、运动模糊、夜间低光照等挑战——在这些退化条件下,即使是GPT-4V、Claude等顶尖模型的识别准确率也会大幅下降。
红外成像(Infrared)作为成熟的互补技术,能够在上述恶劣环境中保持稳定的成像质量。然而,如何高效地将红外信息融入大模型,一直是学术界和工业界的开放难题。
章节 03
DualVision的核心创新在于局部化跨模态注意力机制:
章节 04
团队开源两个数据集:
章节 05
DualVision的技术路线适用于多个场景:
章节 06
该项目已完整开源,包括融合模块代码、预训练与微调脚本、DV-204K和DV-500数据集(QA标注数周内发布)。
论文已被CVPR 2026 Findings接收,项目主页与演示样例可访问:abrarmajeedi.github.io/dualvision。
章节 07
DualVision验证了"模态互补+高效融合"的技术路线,轻量级方案在算力受限的端侧设备更具实用价值,为多模态大模型落地提供兼顾性能与效率的参考范式。