正文

通过检索增强的可靠性感知推理缓解多模态系统中的视觉幻觉

本文介绍了一种新的框架，通过构建外部视觉证据数据库和多重可靠性指标，在不重新训练大型多模态模型的情况下，有效减少视觉幻觉并提高预测准确性。

多模态大语言模型视觉幻觉检索增强可靠性感知不确定性量化ImageNet决策门控机器学习计算机视觉AI安全

发布时间 2026/06/14 20:32最近活动 2026/06/16 10:24预计阅读 2 分钟

章节 01

【导读】检索增强+可靠性感知：缓解多模态视觉幻觉的新框架

本文提出一种检索增强的可靠性感知推理框架，旨在解决多模态系统中的视觉幻觉问题。核心思路是构建外部视觉证据数据库，结合多重可靠性指标评估预测可信度，并通过决策门控机制动态调整输出策略。该方法无需重新训练大型多模态模型，即可有效提升预测准确性并降低幻觉率，为医疗影像、自动驾驶等关键场景提供更可靠的解决方案。

章节 02

研究背景：多模态系统视觉幻觉的挑战

研究背景与动机

多模态大型语言模型（MLLMs）在视觉语言理解和响应生成方面能力强大，但面对视觉证据薄弱、模糊或语义不一致时，易产生过度自信的幻觉输出，严重影响医疗影像分析、自动驾驶等关键场景的可靠性。现有方案多聚焦于改进表示对齐或检索增强生成，缺乏量化实例级预测可靠性及识别错误输出的机制，导致系统难以自知置信度，无法在证据不足时回避回答。

章节 03

核心方法：可靠性感知推理框架的关键组件

核心方法：可靠性感知推理框架

框架包含四大关键组件：

外部视觉证据数据库：利用预训练视觉嵌入模型构建，通过最近邻检索找到相似参考样本，不依赖特定任务训练数据。
多重可靠性指标：融合相似度强度、类别支持一致性、证据边界、熵基不确定性，生成综合可靠性评分。
决策门控机制：基于评分采取三级策略：接受预测（高阈值）、谨慎回答（中等）、回避/回退（低阈值）。
多模态响应生成层：根据决策门输出条件化生成含置信度信息的响应。

章节 04

实验验证：ImageNet数据集上的性能提升

实验验证与结果分析

在ImageNet-100数据集上的评估显示：

准确性提升：接受预测的准确率从85.84%升至88.88%，覆盖率保持89.04%。
幻觉率降低：错误接受率从14.16%降至11.12%，减少约21%的错误预测。
方法优势：无需重新训练大模型，推理阶段动态调整行为，适用于部署中的模型改进。

章节 05

技术洞察与实际应用场景

技术洞察与应用价值

技术洞察：

检索增强可用于验证（不仅生成）；
多指标融合比单一指标更鲁棒；
选择性回答策略有效减少幻觉。 应用场景：
医疗影像诊断：标记不确定病例供人工复核；
自动驾驶：不确定时触发安全回退；
内容审核：减少误报漏报；
智能客服：模糊输入时请求澄清。

章节 06

局限与未来研究方向

局限与未来方向

局限：

外部证据数据库构建维护需额外资源，检索质量影响评估准确性；
决策阈值需在覆盖率与准确性间权衡，不同场景需不同配置。 未来方向：
扩展至音频、视频等更多模态；
探索在线学习动态更新证据库；
结合模型微调进一步提升性能。

章节 07

结论：迈向更可信的多模态系统

结论

本研究提供了实用高效的多模态系统可靠性提升方案。通过检索增强的可靠性感知推理，无需重新训练即可显著减少视觉幻觉、提高预测准确性，为构建可信、透明的AI系统及真实世界安全部署奠定基础。