章节 01
导读 / 主楼:ClinicRealm:大语言模型在临床预测任务中的系统性再评估
北京大学团队发表在npj Digital Medicine的研究显示,现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法,为零样本医疗AI应用开辟新路径。
正文
北京大学团队发表在npj Digital Medicine的研究显示,现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法,为零样本医疗AI应用开辟新路径。
章节 01
北京大学团队发表在npj Digital Medicine的研究显示,现代大语言模型在非生成式临床预测任务中已超越传统机器学习方法,为零样本医疗AI应用开辟新路径。
章节 02
章节 03
随着ChatGPT、GPT-4等大语言模型(LLM)在医疗领域的广泛应用,业界普遍关注其在生成式任务(如病历摘要、医学问答)中的表现。然而,对于非生成式临床预测任务——如住院死亡率预测、再入院风险评估、住院时长预估等——LLM与传统机器学习/深度学习方法的性能对比,长期以来缺乏系统性评估。
临床预测是精准医疗的核心环节。传统方法依赖结构化电子健康记录(EHR)数据,通过XGBoost、LSTM、GRU等模型进行预测。而LLM的出现带来了新的可能性:它们能否直接处理非结构化的临床文本笔记?在数据稀缺场景下是否能展现更强的泛化能力?这些问题直接关系到临床AI系统的选型策略。
章节 04
北京大学AI医学团队构建的ClinicRealm是一个全面的基准测试平台,系统比较了31种不同模型在两类数据源上的表现:
章节 05
大语言模型(15种)
BERT系列模型(5种)
传统机器学习方法(11种)
章节 06
研究基于两个公开医疗数据集:
评估任务涵盖:
章节 07
在处理医生撰写的临床笔记时,领先的LLM(如DeepSeek-R1、DeepSeek-V3.1-Think、GPT-5)在零样本设置下显著超越了经过微调的BERT模型。这一发现意义重大:
章节 08
在结构化数据场景下,结果呈现更复杂的图景: