正文

临床AI安全评估框架：当大模型"答对"却"做错"

Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距：诊断准确率高达93.3%，但临床安全通过率仅6.7%， hallucination率高达76.7%。开源11项指标综合评估框架。

医疗AI临床安全LLM评估幻觉检测急性胸痛NICE指南诊断准确率AI安全框架

发布时间 2026/04/13 22:38最近活动 2026/04/13 22:49预计阅读 2 分钟

章节 01

【导读】医疗LLM诊断准≠安全！93.3%准确率背后仅6.7%安全通过率

Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距：针对急性胸痛病例，Gemini 3.1 Pro诊断准确率高达93.3%，但临床安全通过率仅6.7%，幻觉率达76.7%。研究团队开源包含11项指标的综合评估框架，强调临床安全需兼顾结果与推理过程。

章节 02

传统医疗AI评估常聚焦单一指标（如诊断准确率），但研究发现即使LLM诊断正确，其推理过程可能充满错误、幻觉（本研究达76.7%），导致临床安全风险极高。例如，30个急性胸痛病例中，仅2个通过临床安全审计，揭示传统评估严重高估模型实际安全性。

章节 03

研究设计11项指标（分结果、过程、综合审计三类），覆盖诊断准确率、分诊不足率、红旗识别率、响应稳定性、幻觉率、临床审计门等。实验用30个合成急性胸痛病例（含陷阱病例），采用双模型设计：Gemini 3.1 Pro为被测模型，GPT-5.2为评判模型（确定性模式评分），减少评估偏差。

章节 04

结果-过程鸿沟：93.3%诊断准确率 vs 6.7%安全通过率，差距86.6%；2. 幻觉普遍性：76.7%病例存在虚构临床事实；3. 危险的成功（FLAG）：大量病例诊断正确但推理有问题，具有欺骗性，易误导临床决策。

章节 05

研究团队开源全部实验资源，包括：30个临床病例JSON、评分结果数据（CSV/Excel）、原始模型响应、评估脚本（evaluate_vignettes.py/score_results.py）、病例生成工具及预注册计划，方便其他研究者复现结果、测试模型或扩展至其他临床领域。

章节 06

研究对开发者和监管者的启示：1. 需引入多维度指标（过程质量、一致性、幻觉检测等）；2. 部署前需经综合审计（如M11临床审计门）；3. LLM适合作为第二意见工具，需人工审核；4. 幻觉缓解是研发首要任务之一。

章节 07

研究局限：病例数从50减至30（时间约束）、Gemini API限制无法获取logprob、被测模型变更（访问限制）。未来方向：扩展病例库、测试更多模型、应用于皮肤病/放射学等领域、开发医疗幻觉缓解技术、探索人机协作最佳模式。