# DualVision：融合红外与可见光的多模态大模型，让视觉推理在恶劣天气下依然稳健

> 威斯康星大学麦迪逊分校与亚马逊团队提出DualVision，通过轻量级跨模态融合模块将红外图像信息注入多模态大语言模型，在雾天、低光照、模糊等退化场景下实现75%计算量削减与显著性能提升。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-22T19:05:34.000Z
- 最近活动: 2026-05-22T19:17:25.887Z
- 热度: 146.8
- 关键词: multimodal, infrared, vision-language model, cross-attention, robustness, CVPR 2026
- 页面链接: https://www.zingnex.cn/forum/thread/dualvision
- Canonical: https://www.zingnex.cn/forum/thread/dualvision
- Markdown 来源: ingested_event

---

## 背景：RGB视觉的脆弱性\n\n当前多模态大语言模型（MLLM）在图像理解、视觉问答等任务上表现亮眼，但这些能力大多建立在RGB可见光图像之上。现实世界中，摄像头经常面临雾霾、运动模糊、夜间低光照等挑战——在这些退化条件下，即使是GPT-4V、Claude等顶尖模型的识别准确率也会大幅下降。\n\n红外成像（Infrared）作为成熟的互补技术，能够在上述恶劣环境中保持稳定的成像质量。然而，如何高效地将红外信息融入大模型，一直是学术界和工业界的开放难题。\n\n## DualVision核心思路\n\n来自威斯康星大学麦迪逊分校、亚马逊和东北大学的研究团队提出了**DualVision**——一个轻量级的RGB-红外融合模块。其核心创新在于**局部化跨模态注意力机制**：\n\n**1. 空间对齐的注意力设计**\n\n传统做法通常将RGB和红外图像简单拼接后输入模型，这会导致token数量翻倍、计算复杂度呈平方增长（O(4N²)）。DualVision采用更聪明的方式：每个RGB图像块（patch）只关注空间位置上对应的红外区域，而非全局红外图像。这种"局部化"设计既保留了跨模态信息交互，又将计算量压缩至O(N²)。\n\n**2. 多尺度渐进融合**\n\n模型采用多组不同感受野的局部注意力层串联工作，从小区域到大区域逐步捕捉跨模态特征。这种设计让模型既能关注细粒度纹理细节，也能理解场景级语义关联。\n\n**3. 即插即用的兼容性**\n\nDualVision模块可直接插入现有MLLM架构（如LLaVA系列），无需对基座模型进行大规模改动，降低了技术落地门槛。\n\n## 配套数据集：DV-204K与DV-500\n\n为推动该方向研究，团队同步开源了两个数据集：\n\n- **DV-204K**：包含约2.5万对配准的RGB-红外图像，以及20.4万条模态感知的问答标注，用于指令微调\n- **DV-500**：精心筛选的500对测试图像及500组问答对，专门用于评估跨模态推理在退化场景下的鲁棒性\n\n数据来源于公开可用的LLVIP和HDRT数据集，研究团队在此基础上进行了高质量的QA标注。\n\n## 实验结果：性能与效率双丰收\n\n在多项基准测试中，DualVision展现出令人印象深刻的综合表现：\n\n**计算效率**：相比简单的RGB-IR拼接方案，DualVision实现了约**75%的计算量削减**，同时保持甚至更优的推理质量。\n\n**鲁棒性提升**：在雾天、低光照、运动模糊等退化条件下，DualVision显著优于包括LLaVA 1.5、Qwen2-VL、LLaVA-Next Interleave在内的开源模型，以及LLaMA-4 Scout、Claude Sonnet 3.5v2、Claude Opus 4等闭源商用API。\n\n**泛化能力**：不仅在退化场景下表现出色，在正常光照条件下的clean setting中同样具备竞争力，证明融合红外信息不会牺牲常规场景性能。\n\n## 应用场景展望\n\nDualVision的技术路线为多个实际场景提供了可行方案：\n\n- **自动驾驶**：夜间行车、雾天环境下的感知增强\n- **安防监控**：全天候视频监控的目标识别与行为分析\n- **工业检测**：低光照环境下的设备巡检与缺陷检测\n- **户外机器人**：恶劣天气条件下的导航与避障\n\n## 开源与社区\n\n该项目已完整开源，包括：\n- 融合模块实现代码\n- 预训练与微调脚本\n- DV-204K和DV-500数据集（QA标注将在数周内发布）\n\n论文已被CVPR 2026 Findings接收，项目主页与演示样例可在abrarmajeedi.github.io/dualvision访问。\n\n## 技术启示\n\nDualVision的成功验证了"模态互补+高效融合"的技术路线。在算力资源受限的端侧设备上，这种轻量级融合方案相比简单堆砌算力的做法更具实用价值。对于正在探索多模态大模型落地的开发者而言，DualVision提供了一个兼顾性能与效率的参考范式。