# 通过检索增强的可靠性感知推理缓解多模态系统中的视觉幻觉

> 本文介绍了一种新的框架，通过构建外部视觉证据数据库和多重可靠性指标，在不重新训练大型多模态模型的情况下，有效减少视觉幻觉并提高预测准确性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-14T12:32:38.000Z
- 最近活动: 2026-06-16T02:24:07.305Z
- 热度: 117.1
- 关键词: 多模态大语言模型, 视觉幻觉, 检索增强, 可靠性感知, 不确定性量化, ImageNet, 决策门控, 机器学习, 计算机视觉, AI安全
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2606-15782v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2606-15782v1
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference
- 原始链接：http://arxiv.org/abs/2606.15782v1
- 来源发布时间/更新时间：2026-06-14T12:32:38Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference\n- 原始链接：http://arxiv.org/abs/2606.15782v1\n- 来源发布时间/更新时间：2026-06-14T12:32:38Z\n\n## 研究背景与动机\n\n多模态大型语言模型（MLLMs）在视觉语言理解和自然语言响应生成方面展现出强大的能力。然而，这些系统在面对视觉证据薄弱、模糊或语义不一致的情况时，仍然会产生过度自信的预测和类似幻觉的输出。这种"视觉幻觉"现象严重影响了多模态系统在关键应用场景中的可靠性，例如医疗影像分析、自动驾驶视觉感知和安全监控系统。\n\n现有的解决方案主要集中在改进多模态表示对齐或检索增强生成方面，但在量化实例级预测可靠性和识别错误视觉输出方面提供的机制有限。这意味着系统难以自知其预测的置信度，也无法在证据不足时主动选择回避回答。\n\n## 核心方法：可靠性感知推理框架\n\n本研究提出的检索增强可靠性感知推理框架旨在解决上述问题，其核心架构包含以下几个关键组件：\n\n### 1. 外部视觉证据数据库构建\n\n框架首先利用预训练的视觉嵌入模型构建一个外部视觉证据数据库。通过归一化特征表示上的最近邻检索，系统能够为每个输入查询找到视觉上相似的参考样本。这种方法不依赖于特定任务的训练数据，而是利用大规模预训练模型已经学习到的丰富视觉表征。\n\n### 2. 多重可靠性指标\n\n检索到的证据被用于估计预测可信度，框架设计了五个互补的可靠性指标：\n\n- **相似度强度（Similarity Strength）**：衡量查询图像与检索证据之间的特征相似程度，高相似度意味着更强的证据支持。\n\n- **类别支持一致性（Class-Support Agreement）**：检查检索证据的类别分布是否与当前预测一致，不一致可能预示潜在错误。\n\n- **证据边界（Evidence Margin）**：通过分析检索证据之间的类别差异，评估预测的置信边界。\n\n- **基于熵的不确定性（Entropy-Based Uncertainty）**：利用检索证据分布的熵值量化预测的不确定性。\n\n- **综合可靠性评分（Aggregate Reliability Score）**：整合上述指标，生成最终的可靠性评估。\n\n### 3. 决策门控机制\n\n基于可靠性评分，系统采用三级决策策略：\n\n- **接受预测**：当可靠性评分超过高阈值时，系统直接输出预测结果。\n\n- **谨慎回答**：当可靠性处于中等范围时，系统在响应中附加不确定性提示，告知用户预测可能存在风险。\n\n- **回避/回退**：当证据不足或可靠性过低时，系统选择不回答或回退到更保守的默认响应。\n\n### 4. 多模态响应生成层\n\n最终的响应生成层根据决策门的输出条件化生成用户可见的响应。这一层确保系统的输出既包含预测内容，也适当地传达了置信度信息。\n\n## 实验验证与结果分析\n\n研究团队在ImageNet-100数据集上进行了全面评估，结果显示出显著的性能提升：\n\n### 准确性改进\n\n- 接受预测的准确率从85.84%提升至88.88%，同时保持了89.04%的覆盖率。这意味着系统在保持高回答率的同时，显著提高了回答质量。\n\n### 幻觉率降低\n\n- 类似幻觉的错误接受率从14.16%降低至11.12%，减少了约21%的错误预测。这一改进对于需要高可靠性的应用场景尤为重要。\n\n### 方法优势\n\n该方法的最大优势在于无需重新训练大型多模态模型即可实现性能提升。通过外部证据检索和可靠性评估，系统能够在推理阶段动态调整行为，这为部署中的模型提供了一种实用的改进途径。\n\n## 技术洞察与启示\n\n这项研究揭示了几个重要的技术洞察：\n\n首先，**检索增强不仅用于生成，也可用于验证**。传统上，检索增强主要用于为生成模型提供上下文信息，而本研究表明检索证据同样可以用于验证和校准预测。\n\n其次，**多指标融合比单一指标更可靠**。通过结合相似度、一致性、边界和不确定性等多个维度，系统能够获得更鲁棒的可靠性评估。\n\n第三，**选择性回答策略是减少幻觉的有效手段**。允许系统在证据不足时选择回避，比强制回答所有查询更能维护整体可靠性。\n\n## 实际应用意义\n\n该框架对于以下应用场景具有重要价值：\n\n- **医疗影像诊断**：在AI辅助诊断系统中，可靠性感知可以帮助医生识别模型不确定的病例，优先安排人工复核。\n\n- **自动驾驶感知**：视觉感知系统可以在不确定时触发安全回退机制，而不是输出可能错误的检测结果。\n\n- **内容审核与安全监控**：系统可以标记置信度低的检测结果，减少误报和漏报。\n\n- **智能客服与问答**：当视觉输入模糊或歧义时，系统可以请求澄清而非给出可能错误的回答。\n\n## 局限与未来方向\n\n尽管取得了显著进展，该方法仍存在一些局限。例如，外部证据数据库的构建和维护需要额外资源，检索质量直接影响可靠性评估的准确性。此外，决策阈值的设定需要在覆盖率和准确性之间权衡，不同应用场景可能需要不同的阈值配置。\n\n未来研究方向包括：扩展该方法到更多模态（如音频、视频），探索在线学习机制动态更新证据数据库，以及研究如何将可靠性感知与模型微调相结合以进一步提升性能。\n\n## 结论\n\n这项研究为多模态系统的可靠性提升提供了一个实用且高效的解决方案。通过检索增强的可靠性感知推理，系统能够在不重新训练的情况下显著减少视觉幻觉，提高预测准确性。这种方法代表了向更可信、更透明的人工智能系统迈进的重要一步，为构建能够在真实世界中安全部署的多模态应用奠定了基础。