正文

ClinHallu：医疗多模态大模型幻觉诊断的分阶段基准测试

ClinHallu是一个针对医疗多模态大语言模型（MLLM）的分阶段幻觉诊断基准，通过7,031个验证实例和结构化推理追踪，精确定位幻觉产生的具体阶段，为医疗AI系统的可信度和安全性评估提供了细粒度的测试工具。

ClinHallu医疗多模态大模型幻觉诊断基准测试医学AI视觉识别知识回忆推理整合医疗安全

发布时间 2026/06/13 01:58最近活动 2026/06/15 23:23预计阅读 2 分钟

章节 01

【导读】ClinHallu：医疗多模态大模型幻觉诊断的分阶段基准测试

ClinHallu是针对医疗多模态大语言模型（MLLM）的分阶段幻觉诊断基准，通过7,031个验证实例和结构化推理追踪，精确定位幻觉产生的具体阶段（视觉识别、知识回忆、推理整合），为医疗AI系统的可信度和安全性评估提供细粒度测试工具，已开源。

章节 02

多模态大语言模型在医疗领域应用前景广阔，但幻觉问题（生成看似合理却错误的医疗信息）后果严重。现有医疗幻觉基准仅聚焦识别错误信息，未定位幻觉产生的推理阶段（视觉理解、知识回忆、推理整合哪个环节出错）。

章节 03

研究发现幻觉来源多样，错误可产生于三个阶段：1.视觉识别阶段（误识别病灶、解剖结构或影像特征）；2.知识回忆阶段（医学知识偏差或过时）；3.推理整合阶段（逻辑跳跃、因果混淆等）。

章节 04

ClinHallu基准核心设计包括：1.大规模验证数据集（7,031个经人工标注的实例）；2.结构化推理追踪（分解为视觉识别、知识回忆、推理整合三个阶段的追踪）；3.阶段替换干预机制（用正确答案替换特定阶段输出，量化各阶段影响）。

章节 05

采用追踪监督微调（以结构化推理追踪为监督信号）能显著减少模型各阶段的幻觉发生率，提升最终答案准确性，增强推理过程的可解释性和可审计性。

章节 06

ClinHallu的实践意义包括：1.提升诊断能力（精确定位幻觉来源，便于针对性改进或人工复核）；2.指导模型开发（提供优化方向：强化视觉理解、知识库或推理能力）；3.支持监管合规（满足可解释性和安全性要求，助力临床部署）。

章节 07

章节 08

ClinHallu代表医疗AI评估领域的重要进展，通过分阶段诊断视角提供精细幻觉检测能力，为理解和改进医疗MLLM推理过程提供新工具，助力构建更安全可靠的临床决策支持系统。