Zing 论坛

正文

ClinicRealm:大语言模型在临床预测任务中的系统性再评估

北京大学团队发表在npj Digital Medicine的研究显示,现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法,为零样本医疗AI应用开辟新路径。

大语言模型临床预测电子健康记录医疗AI机器学习MIMIC-IV零样本学习开源模型
发布时间 2026/05/25 17:14最近活动 2026/05/25 17:19预计阅读 3 分钟
ClinicRealm:大语言模型在临床预测任务中的系统性再评估
1

章节 01

导读 / 主楼:ClinicRealm:大语言模型在临床预测任务中的系统性再评估

北京大学团队发表在npj Digital Medicine的研究显示,现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法,为零样本医疗AI应用开辟新路径。

2

章节 02

原作者与来源

  • 原作者/维护者: Yinghao Zhu (PKU-AICare团队)
  • 来源平台: GitHub
  • 原始标题: ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks
  • 原始链接: https://github.com/yhzhu99/ehr-llm-benchmark
  • 论文发表: npj Digital Medicine (2026), DOI: 10.1038/s41746-026-02539-z
  • 源码更新时间: 2026-05-25
3

章节 03

研究背景与动机

随着ChatGPT、GPT-4等大语言模型(LLM)在医疗领域的广泛应用,业界普遍关注其在生成式任务(如病历摘要、医学问答)中的表现。然而,对于非生成式临床预测任务——如住院死亡率预测、再入院风险评估、住院时长预估等——LLM与传统机器学习/深度学习方法的性能对比,长期以来缺乏系统性评估。

临床预测是精准医疗的核心环节。传统方法依赖结构化电子健康记录(EHR)数据,通过XGBoost、LSTM、GRU等模型进行预测。而LLM的出现带来了新的可能性:它们能否直接处理非结构化的临床文本笔记?在数据稀缺场景下是否能展现更强的泛化能力?这些问题直接关系到临床AI系统的选型策略。

4

章节 04

ClinicRealm研究框架

北京大学AI医学团队构建的ClinicRealm是一个全面的基准测试平台,系统比较了31种不同模型在两类数据源上的表现:

5

章节 05

模型阵容

大语言模型(15种)

  • 通用LLM: GPT-4o、GPT-5、DeepSeek-V3、Gemma-3、Qwen2.5
  • 医疗微调LLM: BioGPT、Meditron、OpenBioLLM、BioMistral
  • 推理增强LLM: DeepSeek-R1(7B/671B)、HuatuoGPT-o1-7B、GPT o3-mini-high

BERT系列模型(5种)

  • BERT、BioBERT、ClinicalBERT、GatorTron、Clinical-Longformer

传统机器学习方法(11种)

  • 经典ML: CatBoost、XGBoost、Random Forest、Decision Tree
  • 深度学习: GRU、LSTM、RNN
  • 纵向EHR专用模型: AdaCare、ConCare、GRASP、AICare
6

章节 06

数据集与任务

研究基于两个公开医疗数据集:

  • MIMIC-IV: 包含结构化EHR数据和非结构化临床笔记
  • TJH: 同济医院COVID-19数据集(结构化EHR)

评估任务涵盖:

  1. 住院期间死亡率预测
  2. 30天再入院预测
  3. 住院时长(LOS)预测
  4. 医学句子匹配
  5. ICD代码聚类
7

章节 07

非结构化临床文本:LLM全面领先

在处理医生撰写的临床笔记时,领先的LLM(如DeepSeek-R1、DeepSeek-V3.1-Think、GPT-5)在零样本设置下显著超越了经过微调的BERT模型。这一发现意义重大:

  • 零样本能力: 无需针对特定任务微调,LLM即可直接从临床文本中提取预测信号
  • 文本理解优势: LLM展现出对医学术语、病程描述的深层理解能力
  • 部署便利性: 零样本特性大幅降低了临床AI系统的部署门槛
8

章节 08

结构化EHR数据:数据量决定胜负

在结构化数据场景下,结果呈现更复杂的图景:

  • 充足数据时: 专用模型(如AICare、ConCare)凭借对纵向EHR序列的专门建模,表现最优
  • 数据稀缺时: 先进LLM(如GPT-4o、GPT-5、DeepSeek-V3.1-Think)的零样本能力使其能够超越传统方法
  • 实用启示: 对于数据积累不足的医院或罕见疾病预测,LLM提供了可行的高性能替代方案