# ClinicRealm：大语言模型在临床预测任务中的系统性再评估

> 北京大学团队发表在npj Digital Medicine的研究显示，现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法，为零样本医疗AI应用开辟新路径。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-25T09:14:21.000Z
- 最近活动: 2026-05-25T09:19:02.086Z
- 热度: 159.9
- 关键词: 大语言模型, 临床预测, 电子健康记录, 医疗AI, 机器学习, MIMIC-IV, 零样本学习, 开源模型
- 页面链接: https://www.zingnex.cn/forum/thread/clinicrealm-74fb23ba
- Canonical: https://www.zingnex.cn/forum/thread/clinicrealm-74fb23ba
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Yinghao Zhu (PKU-AICare团队)
- **来源平台**: GitHub
- **原始标题**: ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks
- **原始链接**: https://github.com/yhzhu99/ehr-llm-benchmark
- **论文发表**: npj Digital Medicine (2026), DOI: 10.1038/s41746-026-02539-z
- **源码更新时间**: 2026-05-25

## 研究背景与动机

随着ChatGPT、GPT-4等大语言模型(LLM)在医疗领域的广泛应用，业界普遍关注其在生成式任务(如病历摘要、医学问答)中的表现。然而，对于非生成式临床预测任务——如住院死亡率预测、再入院风险评估、住院时长预估等——LLM与传统机器学习/深度学习方法的性能对比，长期以来缺乏系统性评估。

临床预测是精准医疗的核心环节。传统方法依赖结构化电子健康记录(EHR)数据，通过XGBoost、LSTM、GRU等模型进行预测。而LLM的出现带来了新的可能性：它们能否直接处理非结构化的临床文本笔记？在数据稀缺场景下是否能展现更强的泛化能力？这些问题直接关系到临床AI系统的选型策略。

## ClinicRealm研究框架

北京大学AI医学团队构建的ClinicRealm是一个全面的基准测试平台，系统比较了31种不同模型在两类数据源上的表现：

### 模型阵容

**大语言模型(15种)**
- 通用LLM: GPT-4o、GPT-5、DeepSeek-V3、Gemma-3、Qwen2.5
- 医疗微调LLM: BioGPT、Meditron、OpenBioLLM、BioMistral
- 推理增强LLM: DeepSeek-R1(7B/671B)、HuatuoGPT-o1-7B、GPT o3-mini-high

**BERT系列模型(5种)**
- BERT、BioBERT、ClinicalBERT、GatorTron、Clinical-Longformer

**传统机器学习方法(11种)**
- 经典ML: CatBoost、XGBoost、Random Forest、Decision Tree
- 深度学习: GRU、LSTM、RNN
- 纵向EHR专用模型: AdaCare、ConCare、GRASP、AICare

### 数据集与任务

研究基于两个公开医疗数据集：
- **MIMIC-IV**: 包含结构化EHR数据和非结构化临床笔记
- **TJH**: 同济医院COVID-19数据集(结构化EHR)

评估任务涵盖：
1. 住院期间死亡率预测
2. 30天再入院预测
3. 住院时长(LOS)预测
4. 医学句子匹配
5. ICD代码聚类

## 核心发现

### 非结构化临床文本：LLM全面领先

在处理医生撰写的临床笔记时，领先的LLM(如DeepSeek-R1、DeepSeek-V3.1-Think、GPT-5)在零样本设置下显著超越了经过微调的BERT模型。这一发现意义重大：

- **零样本能力**: 无需针对特定任务微调，LLM即可直接从临床文本中提取预测信号
- **文本理解优势**: LLM展现出对医学术语、病程描述的深层理解能力
- **部署便利性**: 零样本特性大幅降低了临床AI系统的部署门槛

### 结构化EHR数据：数据量决定胜负

在结构化数据场景下，结果呈现更复杂的图景：

- **充足数据时**: 专用模型(如AICare、ConCare)凭借对纵向EHR序列的专门建模，表现最优
- **数据稀缺时**: 先进LLM(如GPT-4o、GPT-5、DeepSeek-V3.1-Think)的零样本能力使其能够超越传统方法
- **实用启示**: 对于数据积累不足的医院或罕见疾病预测，LLM提供了可行的高性能替代方案

### 开源vs闭源：差距正在缩小

研究中最引人注目的发现之一是：领先的开源LLM(如DeepSeek-R1)在非生成式临床预测任务上能够匹敌甚至超越闭源商业模型。这对医疗资源有限的机构尤为重要——高性能临床AI不再依赖昂贵的API调用。

## 技术实现与复现

项目提供了完整的代码实现，支持研究复现和方法扩展：

### 环境配置
```bash
# 使用uv进行Python环境管理
uv sync
```

### 数据预处理
- MIMIC-IV预处理: https://github.com/PKU-AICare/mimic_preprocessor
- TJH数据集: 遵循COVID-19 EHR benchmark流程

### 代码结构
- `src/structured_ehr/`: 结构化EHR实验代码
- `src/unstructured_note/`: 非结构化临床笔记实验代码
- `my_datasets/`: 预处理后数据存储目录

## 临床意义与展望

ClinicRealm的研究成果对医疗AI实践具有多重指导价值：

**模型选型策略重构**
传统观点认为LLM仅适用于生成任务，而预测任务应使用专用模型。ClinicRealm的证据表明，这一二分法正在过时——现代LLM已成为非生成式临床预测的强有力工具。

**数据效率新范式**
在数据稀缺的临床场景(罕见病、新发病、小型医院)，LLM的零样本能力提供了前所未有的机会。无需大量标注数据即可构建高性能预测系统。

**开源生态的崛起**
开源模型性能逼近甚至超越闭源模型，意味着临床AI的民主化。更多医疗机构可以自主部署、定制和优化AI系统，而不受商业API的限制。

**未来研究方向**
- 探索LLM与专用模型的融合架构
- 研究多模态融合(文本+结构化数据+影像)
- 评估LLM在临床决策支持系统中的实际效用
- 开发针对特定疾病领域的专业化LLM

## 结语

ClinicRealm不仅是一个技术基准，更是医疗AI领域范式转变的见证。当大语言模型在非生成式临床预测任务上展现出如此强劲的性能时，我们有理由重新审视整个临床AI的技术路线。对于医疗从业者、AI研究人员和医院管理者而言，这项研究提供了宝贵的实证依据，帮助他们在快速演进的技术 landscape 中做出明智的决策。