正文

EHRStruct：医疗AI的试金石——结构化电子病历大模型评测新基准

本文深入解读AAAI 2026 Oral论文EHRStruct，这是一个包含11项临床任务、2200个标准化样本的医疗大模型评测框架，为医疗AI的可靠性和实用性评估提供了重要工具。

医疗AI电子健康记录大语言模型评测AAAI 2026结构化数据临床决策支持EHR基准测试医疗自然语言处理机器学习

发布时间 2026/05/04 21:45最近活动 2026/05/04 21:55预计阅读 2 分钟

章节 01

EHRStruct：医疗AI结构化电子病历评测新基准导读

本文解读AAAI 2026 Oral论文EHRStruct，这是针对结构化电子健康记录（EHR）任务的医疗大模型评测框架，包含11项临床任务、2200个标准化样本，旨在解决医疗AI评估的客观系统问题，为其可靠性和实用性评估提供重要工具。

章节 02

医疗AI评估的现实困境

大语言模型在医疗领域应用广泛，但传统评估聚焦单一任务（如影像分类准确率），无法反映真实临床中处理复杂结构化EHR的能力。新加坡南洋理工大学团队开发的EHRStruct框架，获AAAI 2026 Oral荣誉，为系统性评估开辟新路径。

章节 03

EHRStruct框架与数据集构建

EHRStruct涵盖11个临床任务，分6大类别（数据理解、数据推理、知识理解、知识推理等）。数据集来自Synthea合成数据（无隐私风险、可扩展）和eICU真实临床数据（需认证访问），团队提供预处理代码和数据。

章节 04

评测方法创新与基线模型EHRMaster

EHRStruct支持纯文本、LaTeX、超图、自然语言生成四种输入格式；采用临床专家审核、多重验证的标准化流程；支持零/少样本评估。团队还开发EHRMaster基线模型，优化表格编码、注入医学知识、多任务联合训练。

章节 05

实验结果关键发现

实验对比通用与医学模型：通用模型擅数据理解，医学模型强知识推理，规模与性能非线性；任务难度梯度明显（数据筛选易，术语标准化和用药推理难）；模型表现受输入格式影响显著。

章节 06

社区影响与医疗AI发展启示

EHRStruct自2025年11月发布获AI_Era等媒体关注，2025年12月发起Codabench挑战赛，开源许可支持学术使用。启示：评测驱动创新（如ImageNet推动CV）、结构化数据处理能力需优化、深度医学知识整合仍有挑战。

章节 07

使用指南与未来方向

使用需Python3.9+等环境，可选择预处理Synthea数据或申请eICU数据，示例命令如python run.py --llm Qwen72B --task aggregation --type txt --k 0。局限性：未覆盖多模态、仅限英文、静态数据；未来计划扩展任务、多语言支持、交互式评测等。