Zing 论坛

正文

临床AI安全评估框架:当大模型"答对"却"做错"

Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距:诊断准确率高达93.3%,但临床安全通过率仅6.7%, hallucination率高达76.7%。开源11项指标综合评估框架。

医疗AI临床安全LLM评估幻觉检测急性胸痛NICE指南诊断准确率AI安全框架
发布时间 2026/04/13 22:38最近活动 2026/04/13 22:49预计阅读 2 分钟
临床AI安全评估框架:当大模型"答对"却"做错"
1

章节 01

【导读】医疗LLM诊断准≠安全!93.3%准确率背后仅6.7%安全通过率

Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距:针对急性胸痛病例,Gemini 3.1 Pro诊断准确率高达93.3%,但临床安全通过率仅6.7%,幻觉率达76.7%。研究团队开源包含11项指标的综合评估框架,强调临床安全需兼顾结果与推理过程。

2

章节 02

背景:传统评估的盲区——诊断准≠临床安全

传统医疗AI评估常聚焦单一指标(如诊断准确率),但研究发现即使LLM诊断正确,其推理过程可能充满错误、幻觉(本研究达76.7%),导致临床安全风险极高。例如,30个急性胸痛病例中,仅2个通过临床安全审计,揭示传统评估严重高估模型实际安全性。

3

章节 03

方法:11项综合评估框架+双模型实验设计

研究设计11项指标(分结果、过程、综合审计三类),覆盖诊断准确率、分诊不足率、红旗识别率、响应稳定性、幻觉率、临床审计门等。实验用30个合成急性胸痛病例(含陷阱病例),采用双模型设计:Gemini 3.1 Pro为被测模型,GPT-5.2为评判模型(确定性模式评分),减少评估偏差。

4

章节 04

证据:三大关键发现暴露医疗LLM安全隐患

  1. 结果-过程鸿沟:93.3%诊断准确率 vs 6.7%安全通过率,差距86.6%;2. 幻觉普遍性:76.7%病例存在虚构临床事实;3. 危险的成功(FLAG):大量病例诊断正确但推理有问题,具有欺骗性,易误导临床决策。
5

章节 05

开源资源:完整实验pipeline开放,支持复现与扩展

研究团队开源全部实验资源,包括:30个临床病例JSON、评分结果数据(CSV/Excel)、原始模型响应、评估脚本(evaluate_vignettes.py/score_results.py)、病例生成工具及预注册计划,方便其他研究者复现结果、测试模型或扩展至其他临床领域。

6

章节 06

启示:医疗AI开发需多维度评估与严格审计

研究对开发者和监管者的启示:1. 需引入多维度指标(过程质量、一致性、幻觉检测等);2. 部署前需经综合审计(如M11临床审计门);3. LLM适合作为第二意见工具,需人工审核;4. 幻觉缓解是研发首要任务之一。

7

章节 07

局限性与未来:病例规模待扩展,框架将应用更多领域

研究局限:病例数从50减至30(时间约束)、Gemini API限制无法获取logprob、被测模型变更(访问限制)。未来方向:扩展病例库、测试更多模型、应用于皮肤病/放射学等领域、开发医疗幻觉缓解技术、探索人机协作最佳模式。