Zing 论坛

正文

ClinicalDx-NLP:将出院记录转化为结构化ICD-10编码的医疗AI数据集

一个包含5万份合成出院摘要的医疗NLP数据集,涵盖ICD-10编码、CPT编码、DRG编码和6类NER标注,专为临床NLP、医疗编码AI和大型语言模型微调而设计。

医疗NLPICD-10编码临床文本挖掘命名实体识别医疗数据集大语言模型微调医疗AI
发布时间 2026/04/30 18:14最近活动 2026/04/30 18:18预计阅读 3 分钟
ClinicalDx-NLP:将出院记录转化为结构化ICD-10编码的医疗AI数据集
1

章节 01

ClinicalDx-NLP数据集导读:解决医疗编码与AI研究的数据痛点

ClinicalDx-NLP是一个包含5万份合成出院摘要的医疗NLP数据集,涵盖ICD-10编码、CPT编码、DRG编码及6类NER标注,专为临床NLP、医疗编码AI和大语言模型微调设计。它解决了人工医疗编码错误率高、高质量医疗数据获取门槛高、缺乏同时含ICD-10和NER标注数据集的痛点,且数据经HIPAA安全认证,无需资质审核即可使用。

2

章节 02

医疗编码的挑战与现有数据的局限性

医疗编码错误每年给美国医疗系统造成超250亿美元损失,约22%人工编码存在错误,是保险理赔被拒第二大原因。传统人工编码效率低易出错;MIMIC-III等数据集需严格资质审核(数周流程),阻碍医疗AI发展;目前缺乏同时包含ICD-10诊断编码和NER标注的高质量出院摘要数据集,限制端到端医疗编码自动化研究。

3

章节 03

ClinicalDx-NLP数据集核心组成与文件结构

ClinicalDx-NLP含50,000份合成且高度真实的出院摘要,经HIPAA安全认证。核心文件包括:

  • discharge_summaries.csv:5万条完整摘要,含ICD-10、CPT、DRG编码及人口统计信息
  • ner_annotations.jsonl:5万条6类NER实体标注
  • train_test_split.csv:70/15/15分层划分的训练测试集
  • icd10_reference.csv:约14个ICD-10编码及专科、DRG映射
  • data_dictionary.csv:数据模式参考文档
4

章节 04

数据字段设计与6类NER标注详解

每条出院摘要含: 基础信息:summary_id、入院/出院日期、住院天数、年龄、性别等 临床编码:主要/次要ICD-10编码、CPT程序编码、DRG编码 出院状态:处置方式(回家/专业护理等)、病情状况(稳定/好转等) 文本内容:200-400词摘要及词数、NER实体数

NER标注共6类:MEDICATION(药物)、PROCEDURE(程序)、DIAGNOSIS(诊断)、LAB_VALUE(实验室数值)、ANATOMY(解剖结构)、TEMPORAL(时间信息),标注含文本、类型及字符位置,可直接用于spaCy等NLP框架训练。

5

章节 05

严格的质量校验确保数据真实与逻辑一致

数据质量保障机制:

  1. 专科锁定:ICD-10编码严格对应专科(如产科无败血症编码)
  2. 编码匹配:CPT与诊断编码匹配(如乳腺癌患者无结肠镜CPT编码)
  3. 临床逻辑:药物/实验室数值/生命体征与诊断匹配(如败血症患者乳酸异常、血压低)
  4. 人口统计学约束:年龄范围(产科18-42岁)、性别分布(产科100%女性)、住院天数按DRG权重校准 所有数据经一致性校验,确保真实逻辑。
6

章节 06

数据集支持的医疗AI应用场景

数据集支持多种医疗AI应用:

  • ICD-10编码预测:用TF-IDF+逻辑回归或BERT等模型端到端预测
  • NER训练:基于6类标注训练医疗NER模型
  • LLM微调:构建指令对,用于Llama/Mistral等开源LLM微调
  • 住院天数预测:基于年龄、专科等特征构建模型辅助资源规划 配套可视化工具生成5张学术图表(数据集概览、NER分析、模型分析等),助力数据理解与ROI评估。
7

章节 07

数据集获取方式与项目意义展望

数据集获取方式:

  • GitHub克隆:git clone https://github.com/NudratDS/ClinicalDx-NLP,安装依赖后运行生成脚本
  • Kaggle直接使用:[kaggle.com/datasets/nudratabbas/clinicaldx-nlp]

项目意义:填补医疗NLP数据空白,降低AI研究准入门槛,为自动化编码、临床决策支持奠定基础。未来将推动医疗AI从实验室走向临床,成为关键基础设施。