章节 01
ClinicalDx-NLP数据集导读:解决医疗编码与AI研究的数据痛点
ClinicalDx-NLP是一个包含5万份合成出院摘要的医疗NLP数据集,涵盖ICD-10编码、CPT编码、DRG编码及6类NER标注,专为临床NLP、医疗编码AI和大语言模型微调设计。它解决了人工医疗编码错误率高、高质量医疗数据获取门槛高、缺乏同时含ICD-10和NER标注数据集的痛点,且数据经HIPAA安全认证,无需资质审核即可使用。
正文
一个包含5万份合成出院摘要的医疗NLP数据集,涵盖ICD-10编码、CPT编码、DRG编码和6类NER标注,专为临床NLP、医疗编码AI和大型语言模型微调而设计。
章节 01
ClinicalDx-NLP是一个包含5万份合成出院摘要的医疗NLP数据集,涵盖ICD-10编码、CPT编码、DRG编码及6类NER标注,专为临床NLP、医疗编码AI和大语言模型微调设计。它解决了人工医疗编码错误率高、高质量医疗数据获取门槛高、缺乏同时含ICD-10和NER标注数据集的痛点,且数据经HIPAA安全认证,无需资质审核即可使用。
章节 02
医疗编码错误每年给美国医疗系统造成超250亿美元损失,约22%人工编码存在错误,是保险理赔被拒第二大原因。传统人工编码效率低易出错;MIMIC-III等数据集需严格资质审核(数周流程),阻碍医疗AI发展;目前缺乏同时包含ICD-10诊断编码和NER标注的高质量出院摘要数据集,限制端到端医疗编码自动化研究。
章节 03
ClinicalDx-NLP含50,000份合成且高度真实的出院摘要,经HIPAA安全认证。核心文件包括:
章节 04
每条出院摘要含: 基础信息:summary_id、入院/出院日期、住院天数、年龄、性别等 临床编码:主要/次要ICD-10编码、CPT程序编码、DRG编码 出院状态:处置方式(回家/专业护理等)、病情状况(稳定/好转等) 文本内容:200-400词摘要及词数、NER实体数
NER标注共6类:MEDICATION(药物)、PROCEDURE(程序)、DIAGNOSIS(诊断)、LAB_VALUE(实验室数值)、ANATOMY(解剖结构)、TEMPORAL(时间信息),标注含文本、类型及字符位置,可直接用于spaCy等NLP框架训练。
章节 05
数据质量保障机制:
章节 06
数据集支持多种医疗AI应用:
章节 07
数据集获取方式:
git clone https://github.com/NudratDS/ClinicalDx-NLP,安装依赖后运行生成脚本项目意义:填补医疗NLP数据空白,降低AI研究准入门槛,为自动化编码、临床决策支持奠定基础。未来将推动医疗AI从实验室走向临床,成为关键基础设施。