章节 01
【导读】Multi-OS:多模态OOD合成增强视觉语言模型的分布外检测能力
本文介绍Multi-OS(Multimodal OOD Synthesis)方法,通过多模态分布外样本合成技术,显著提升视觉语言模型(VLMs)在识别未知类别时的鲁棒性和准确性。该方法解决了VLMs实际部署中遇到分布外样本(OOD)时过度自信的问题,对AI安全、自动驾驶等高风险场景具有重要意义。
正文
本文介绍Multi-OS方法,通过多模态分布外样本合成技术,显著提升视觉语言模型在识别未知类别时的鲁棒性和准确性。
章节 01
本文介绍Multi-OS(Multimodal OOD Synthesis)方法,通过多模态分布外样本合成技术,显著提升视觉语言模型(VLMs)在识别未知类别时的鲁棒性和准确性。该方法解决了VLMs实际部署中遇到分布外样本(OOD)时过度自信的问题,对AI安全、自动驾驶等高风险场景具有重要意义。
章节 02
近年来,CLIP、BLIP等VLMs在跨模态理解和零样本学习取得突破,但遇到OOD样本时易产生过度自信的错误预测。OOD检测对AI系统安全性至关重要,传统单模态方法难以充分利用VLMs的跨模态特性。
章节 03
Multi-OS的核心是主动合成多样化多模态OOD样本训练模型识别"未知",区别于传统基于置信度阈值、特征空间或对抗训练的方法,充分利用VLMs的跨模态特性提升检测效果。
章节 04
章节 05
实验在ImageNet-O、OpenImage-O等基准上评估,采用AUROC和FPR95指标:1. AUROC比最佳基线提高3-5个百分点;2. FPR95显著降低,控制误报;3. 跨数据集泛化性好;4. 推理开销增加有限。消融实验显示多模态联合合成效果最优。
章节 06
章节 07
局限性:合成质量依赖语义一致性、计算成本高、领域适应性需调整。未来方向:结合大语言模型生成OOD概念、探索自监督学习减少标签依赖、开发轻量级合成方法适应边缘设备。