章节 01
【导读】医疗LLM诊断准≠安全!93.3%准确率背后仅6.7%安全通过率
Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距:针对急性胸痛病例,Gemini 3.1 Pro诊断准确率高达93.3%,但临床安全通过率仅6.7%,幻觉率达76.7%。研究团队开源包含11项指标的综合评估框架,强调临床安全需兼顾结果与推理过程。
正文
Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距:诊断准确率高达93.3%,但临床安全通过率仅6.7%, hallucination率高达76.7%。开源11项指标综合评估框架。
章节 01
Wrexham Glyndwr大学研究揭示医疗LLM的惊人差距:针对急性胸痛病例,Gemini 3.1 Pro诊断准确率高达93.3%,但临床安全通过率仅6.7%,幻觉率达76.7%。研究团队开源包含11项指标的综合评估框架,强调临床安全需兼顾结果与推理过程。
章节 02
传统医疗AI评估常聚焦单一指标(如诊断准确率),但研究发现即使LLM诊断正确,其推理过程可能充满错误、幻觉(本研究达76.7%),导致临床安全风险极高。例如,30个急性胸痛病例中,仅2个通过临床安全审计,揭示传统评估严重高估模型实际安全性。
章节 03
研究设计11项指标(分结果、过程、综合审计三类),覆盖诊断准确率、分诊不足率、红旗识别率、响应稳定性、幻觉率、临床审计门等。实验用30个合成急性胸痛病例(含陷阱病例),采用双模型设计:Gemini 3.1 Pro为被测模型,GPT-5.2为评判模型(确定性模式评分),减少评估偏差。
章节 04
章节 05
研究团队开源全部实验资源,包括:30个临床病例JSON、评分结果数据(CSV/Excel)、原始模型响应、评估脚本(evaluate_vignettes.py/score_results.py)、病例生成工具及预注册计划,方便其他研究者复现结果、测试模型或扩展至其他临床领域。
章节 06
研究对开发者和监管者的启示:1. 需引入多维度指标(过程质量、一致性、幻觉检测等);2. 部署前需经综合审计(如M11临床审计门);3. LLM适合作为第二意见工具,需人工审核;4. 幻觉缓解是研发首要任务之一。
章节 07
研究局限:病例数从50减至30(时间约束)、Gemini API限制无法获取logprob、被测模型变更(访问限制)。未来方向:扩展病例库、测试更多模型、应用于皮肤病/放射学等领域、开发医疗幻觉缓解技术、探索人机协作最佳模式。