章节 01
导读:MissRAG框架——解决多模态大模型缺失模态问题的创新方案
ICCV 2025收录的MissRAG框架,首次将RAG技术应用于解决多模态大语言模型中的缺失模态问题,支持音频、视觉、文本三种模态的任意组合检索与生成,通过智能检索和提示工程增强现有模型鲁棒性,无需修改架构或重新训练。
正文
ICCV 2025收录的MissRAG框架,首次将RAG技术应用于解决多模态大模型中的模态缺失问题,支持音频、视觉、文本三种模态的任意组合检索与生成。
章节 01
ICCV 2025收录的MissRAG框架,首次将RAG技术应用于解决多模态大语言模型中的缺失模态问题,支持音频、视觉、文本三种模态的任意组合检索与生成,通过智能检索和提示工程增强现有模型鲁棒性,无需修改架构或重新训练。
章节 02
多模态大语言模型(MLLMs)在视觉问答、视频理解等任务表现出色,但现实场景中常因传感器故障、隐私限制等导致模态缺失。传统模型假设模态完整,缺失时性能急剧下降,这一“缺失模态问题”严重限制其可靠性与实用性。
章节 03
MissRAG核心思想:模态缺失时从原型池检索相关信息填补。技术架构支持音视频文本三模态任意组合,采用ImageBind作为嵌入器构建统一空间;检索策略灵活适配固定/变长表征模型。此外引入模态感知提示,显式告知模型缺失模态,引导生成过程。
章节 04
在OneLLM(7B)、ChatBridge(13B)、VideoLLaMA 2(7B)上评估,覆盖Music AVQA(音频视觉问答)、Valor/CharadesEGO(描述生成)、MOSI/MOSEI(情感分析)等任务。结果显示MissRAG有效缓解缺失模态下的性能损失,保持高准确率与生成质量。
章节 05
MissRAG为多模态系统鲁棒性提供轻量级可插拔方案,无需重新训练模型;核心思想可扩展至更多模态(如深度图像、雷达数据);在隐私场景中,允许系统在用户不提供某些模态时仍通过检索提供服务。
章节 06
MissRAG代码已开源在GitHub,包含实验复现材料;Hugging Face发布预计算模态池与token数据集,降低复现门槛,助力社区对缺失模态问题的研究。