Zing 论坛

正文

MissRAG:解决多模态大语言模型中缺失模态问题的创新RAG框架

ICCV 2025收录的MissRAG框架,首次将RAG技术应用于解决多模态大模型中的模态缺失问题,支持音频、视觉、文本三种模态的任意组合检索与生成。

多模态大语言模型RAG缺失模态ICCV 2025检索增强生成跨模态检索模态感知提示OneLLMChatBridgeVideoLLaMA
发布时间 2026/03/30 18:26最近活动 2026/03/30 18:48预计阅读 2 分钟
MissRAG:解决多模态大语言模型中缺失模态问题的创新RAG框架
1

章节 01

导读:MissRAG框架——解决多模态大模型缺失模态问题的创新方案

ICCV 2025收录的MissRAG框架,首次将RAG技术应用于解决多模态大语言模型中的缺失模态问题,支持音频、视觉、文本三种模态的任意组合检索与生成,通过智能检索和提示工程增强现有模型鲁棒性,无需修改架构或重新训练。

2

章节 02

背景与挑战:多模态系统的缺失模态困境

多模态大语言模型(MLLMs)在视觉问答、视频理解等任务表现出色,但现实场景中常因传感器故障、隐私限制等导致模态缺失。传统模型假设模态完整,缺失时性能急剧下降,这一“缺失模态问题”严重限制其可靠性与实用性。

3

章节 03

MissRAG技术架构:跨模态检索与模态感知提示

MissRAG核心思想:模态缺失时从原型池检索相关信息填补。技术架构支持音视频文本三模态任意组合,采用ImageBind作为嵌入器构建统一空间;检索策略灵活适配固定/变长表征模型。此外引入模态感知提示,显式告知模型缺失模态,引导生成过程。

4

章节 04

实验验证:跨模型跨任务的性能提升

在OneLLM(7B)、ChatBridge(13B)、VideoLLaMA 2(7B)上评估,覆盖Music AVQA(音频视觉问答)、Valor/CharadesEGO(描述生成)、MOSI/MOSEI(情感分析)等任务。结果显示MissRAG有效缓解缺失模态下的性能损失,保持高准确率与生成质量。

5

章节 05

实际意义与应用前景:鲁棒性与通用性的突破

MissRAG为多模态系统鲁棒性提供轻量级可插拔方案,无需重新训练模型;核心思想可扩展至更多模态(如深度图像、雷达数据);在隐私场景中,允许系统在用户不提供某些模态时仍通过检索提供服务。

6

章节 06

开源与可复现性:推动社区研究

MissRAG代码已开源在GitHub,包含实验复现材料;Hugging Face发布预计算模态池与token数据集,降低复现门槛,助力社区对缺失模态问题的研究。