Zing 论坛

正文

通过检索增强的可靠性感知推理缓解多模态系统中的视觉幻觉

本文介绍了一种新的框架,通过构建外部视觉证据数据库和多重可靠性指标,在不重新训练大型多模态模型的情况下,有效减少视觉幻觉并提高预测准确性。

多模态大语言模型视觉幻觉检索增强可靠性感知不确定性量化ImageNet决策门控机器学习计算机视觉AI安全
发布时间 2026/06/14 20:32最近活动 2026/06/16 10:24预计阅读 2 分钟
通过检索增强的可靠性感知推理缓解多模态系统中的视觉幻觉
1

章节 01

【导读】检索增强+可靠性感知:缓解多模态视觉幻觉的新框架

本文提出一种检索增强的可靠性感知推理框架,旨在解决多模态系统中的视觉幻觉问题。核心思路是构建外部视觉证据数据库,结合多重可靠性指标评估预测可信度,并通过决策门控机制动态调整输出策略。该方法无需重新训练大型多模态模型,即可有效提升预测准确性并降低幻觉率,为医疗影像、自动驾驶等关键场景提供更可靠的解决方案。

2

章节 02

研究背景:多模态系统视觉幻觉的挑战

研究背景与动机

多模态大型语言模型(MLLMs)在视觉语言理解和响应生成方面能力强大,但面对视觉证据薄弱、模糊或语义不一致时,易产生过度自信的幻觉输出,严重影响医疗影像分析、自动驾驶等关键场景的可靠性。 现有方案多聚焦于改进表示对齐或检索增强生成,缺乏量化实例级预测可靠性及识别错误输出的机制,导致系统难以自知置信度,无法在证据不足时回避回答。

3

章节 03

核心方法:可靠性感知推理框架的关键组件

核心方法:可靠性感知推理框架

框架包含四大关键组件:

  1. 外部视觉证据数据库:利用预训练视觉嵌入模型构建,通过最近邻检索找到相似参考样本,不依赖特定任务训练数据。
  2. 多重可靠性指标:融合相似度强度、类别支持一致性、证据边界、熵基不确定性,生成综合可靠性评分。
  3. 决策门控机制:基于评分采取三级策略:接受预测(高阈值)、谨慎回答(中等)、回避/回退(低阈值)。
  4. 多模态响应生成层:根据决策门输出条件化生成含置信度信息的响应。
4

章节 04

实验验证:ImageNet数据集上的性能提升

实验验证与结果分析

在ImageNet-100数据集上的评估显示:

  • 准确性提升:接受预测的准确率从85.84%升至88.88%,覆盖率保持89.04%。
  • 幻觉率降低:错误接受率从14.16%降至11.12%,减少约21%的错误预测。
  • 方法优势:无需重新训练大模型,推理阶段动态调整行为,适用于部署中的模型改进。
5

章节 05

技术洞察与实际应用场景

技术洞察与应用价值

技术洞察

  • 检索增强可用于验证(不仅生成);
  • 多指标融合比单一指标更鲁棒;
  • 选择性回答策略有效减少幻觉。 应用场景
  • 医疗影像诊断:标记不确定病例供人工复核;
  • 自动驾驶:不确定时触发安全回退;
  • 内容审核:减少误报漏报;
  • 智能客服:模糊输入时请求澄清。
6

章节 06

局限与未来研究方向

局限与未来方向

局限

  • 外部证据数据库构建维护需额外资源,检索质量影响评估准确性;
  • 决策阈值需在覆盖率与准确性间权衡,不同场景需不同配置。 未来方向
  • 扩展至音频、视频等更多模态;
  • 探索在线学习动态更新证据库;
  • 结合模型微调进一步提升性能。
7

章节 07

结论:迈向更可信的多模态系统

结论

本研究提供了实用高效的多模态系统可靠性提升方案。通过检索增强的可靠性感知推理,无需重新训练即可显著减少视觉幻觉、提高预测准确性,为构建可信、透明的AI系统及真实世界安全部署奠定基础。