# PRIME-CVD：面向医学信息学教育的隐私保护心血管风险模拟数据集

> UNSW 健康大数据研究中心开源的教育数据集，通过因果 DAG 生成 5 万例模拟患者数据，提供干净队列和真实 EMR 风格的"脏数据"双版本，支持因果推断、生存分析、数据清洗等医学信息学教学

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-10T05:35:25.000Z
- 最近活动: 2026-04-10T05:47:59.826Z
- 热度: 158.8
- 关键词: 医学信息学, 心血管风险, 模拟数据, 隐私保护, 因果推断, DAG, 电子病历, EMR, 生存分析, 数据清洗, 教育数据集, UNSW
- 页面链接: https://www.zingnex.cn/forum/thread/prime-cvd
- Canonical: https://www.zingnex.cn/forum/thread/prime-cvd
- Markdown 来源: ingested_event

---

# PRIME-CVD：面向医学信息学教育的隐私保护心血管风险模拟数据集\n\n## 项目背景与核心挑战\n\n医学信息学教育和研究中，一个长期存在的难题是**数据获取与隐私保护之间的矛盾**。真实的电子病历（EMR）数据包含敏感的患者信息，受到严格的隐私法规保护，难以直接用于教学或公开分享。而完全合成的数据又往往缺乏真实世界数据的复杂性和"脏乱"特征，无法有效训练学生处理真实医疗数据的能力。\n\n**PRIME-CVD**（Parametrically Rendered Informatics Medical Environment for Cardiovascular Disease）正是为解决这一困境而设计的。由新南威尔士大学（UNSW）健康大数据研究中心（CBDRH）开发，这是一个完全开源、隐私安全的心血管疾病模拟数据集，专为医学信息学教育而生。\n\n## 什么是 PRIME-CVD\n\nPRIME-CVD 是一个基于**因果有向无环图（DAG）**参数化生成的模拟数据集。它的核心设计理念是：\n\n> 通过确定性的因果机制生成数据，既保证数据的统计真实性，又彻底消除隐私泄露风险。\n\n所有记录都是"从零生成（de novo）"，仅基于聚合的先验统计信息，不涉及任何真实患者的个体数据。这意味着：\n\n- ✅ 完全隐私安全，可自由分享和使用\n- ✅ 数据生成过程透明、可复现\n- ✅ 保留了真实人群的结构特征和变量关系\n\n## 数据集构成：双轨设计\n\nPRIME-CVD 提供两种互补的数据资产，模拟真实医学数据分析中的两种典型场景：\n\n### 数据资产 1：干净的分析就绪队列\n\n这是一个经过精心整理的纵向队列数据，包含 50,000 名模拟成年人的完整随访信息：\n\n**核心变量包括：**\n\n- 人口社会学特征：IRSD（社会经济劣势指数）五分位数、年龄\n- 生活方式因素：吸烟状态、BMI\n- 临床指标：糖尿病、慢性肾病（CKD）、糖化血红蛋白（HbA1c）、估算肾小球滤过率（eGFR）、收缩压（SBP）\n- 心血管状况：房颤（AF）、心血管事件指示变量、至心血管事件发生时间\n\n这个版本适合直接用于：\n\n- 生存分析建模\n- 心血管风险预测\n- 因果效应估计\n- 统计方法教学\n\n### 数据资产 2：真实的 EMR 风格关系型数据\n\n这是项目的亮点所在——它刻意模拟了真实电子病历系统的"混乱"：\n\n- **异质性（Heterogeneity）**：同一概念在不同表中以不同格式记录\n- **缺失值（Missingness）**：符合真实临床数据缺失模式\n- **单位不一致（Unit Inconsistencies）**：如血压有时以 mmHg 记录，有时以 kPa 记录\n\n包含三张关系表：\n\n1. **PatientMasterSummary**：患者主索引摘要\n2. **PatientChronicDiseases**：慢性病诊断记录\n3. **PatientMeasAndPath**：测量值和病理结果\n\n这个版本专门用于训练：\n\n- 数据清洗与整合\n- 记录关联（Record Linkage）\n- 数据质量评估\n- 处理缺失数据策略\n\n## 技术实现：因果 DAG 驱动的数据生成\n\nPRIME-CVD 的数据生成并非随机模拟，而是基于严谨的流行病学和统计学原理：\n\n### 因果 DAG 设计\n\n项目团队手工构建了一个描述心血管疾病风险因素的因果有向无环图，明确指定了变量间的因果关系方向。例如：\n\n```\n吸烟 → 心血管疾病\n糖尿病 → 心血管疾病\n年龄 → 心血管疾病\n年龄 → 糖尿病\n```\n\n这种设计确保生成的数据具有真实的因果结构，支持因果推断教学。\n\n### 参数来源\n\n所有参数均来自权威的公开数据源：\n\n- **澳大利亚统计局（ABS）**：人口结构、社会经济指标\n- **澳大利亚健康福利研究院（AIHW）**：疾病患病率、风险因素分布\n- **已发表的流行病学研究**：变量间的效应大小估计\n\n### 确定性生成\n\n给定相同的随机种子，任何人都可以复现完全相同的数据集。这种可复现性对于：\n\n- 教学作业的标准答案生成\n- 研究方法的公平比较\n- 算法基准测试\n\n都至关重要。\n\n## 教育资源与教学应用\n\nPRIME-CVD 不仅提供数据，还配套了完整的教学资源：\n\n### 系列博客与笔记本\n\n项目维护了一系列主题化的教学材料：\n\n**Series 01 - 数据集本身**\n- 展示干净队列的结构\n- 解释 EMR 版本如何派生\n- 演示数据溯源和因果假设\n\n**Series 02 - 教育评估设计**\n- 如何设计基于 PRIME-CVD 的作业和考试\n- 从社会经济分层任务到 Cox 基线解释\n- EMR 重建练习\n\n**Series 03-07 - 核心医学信息学概念**\n\n1. **歧视（Discrimination）**：模型如何在风险空间中对个体排序\n2. **校准（Calibration）**：预测风险与实际结果的对应关系\n3. **可迁移性（Transportability）**：模型在不同人群中的表现\n4. **可部署性（Deployability）**：建模丰富性与实际可行性之间的权衡\n5. **风险几何（Risk Geometry）**：患者如何在高风险空间中聚类并形成梯度\n\n### 编程语言支持\n\n项目提供 Python 和 R 两种语言的快速入门笔记本：\n\n- `2026_02_25_PrimeCvd_QuickStart.ipynb`\n- `2026_02_25_PrimeCvd_QuickStart(R_Version).ipynb`\n\n## 适用场景\n\n### 对于教育工作者\n\n- 设计医学信息学课程的实践作业\n- 创建可复现的考试数据集\n- 演示数据清洗前后的对比\n- 教授因果推断和生存分析\n\n### 对于学生\n\n- 安全地练习处理"真实"医疗数据\n- 学习识别和解决数据质量问题\n- 理解预测模型在医学中的应用局限\n- 掌握可解释性 AI 在医疗中的重要性\n\n### 对于研究人员\n\n- 测试新的因果发现算法\n- 验证数据清洗方法的鲁棒性\n- 开发医学 NLP 或信息提取工具\n- 基准测试风险预测模型\n\n## 核心优势总结\n\n| 特性 | 说明 |\n|------|------|\n| **隐私安全** | 完全合成数据，零隐私泄露风险 |\n| **教育导向** | 清晰的 DAG 与 EMR 伪影分离设计 |\n| **可复现** | 确定性生成流程，支持任意规模队列重建 |\n| **双资产** | 干净队列 + 脏 EMR，覆盖完整分析流程 |\n| **开放获取** | 代码、数据、教程全部开源 |\n\n## 项目团队与引用\n\nPRIME-CVD 由 UNSW 健康大数据研究中心开发，核心团队包括：\n\n- Dr. Nic Kuo（项目负责人）\n- Dr. Marzia Hoque\n- Prof. Blanca Gallego\n- Prof. Louisa Jorm\n\n项目已发表预印本，可通过 figshare 获取完整数据集：\n\n- 数据资产 1：https://doi.org/10.6084/m9.figshare.31395765.v1\n- 数据资产 2：https://doi.org/10.6084/m9.figshare.31403028.v1\n\n## 总结\n\nPRIME-CVD 代表了医学信息学教育资源的创新方向——在保护隐私的前提下，提供尽可能接近真实的教学数据。通过因果 DAG 驱动的生成机制，它不仅提供了统计上可信的合成数据，更重要的是保留了真实医疗数据的核心特征和复杂性。\n\n对于任何从事医学数据分析教学、学习或研究的个人和机构，PRIME-CVD 都是一个宝贵的开源资源。它降低了医学信息学教育的门槛，让更多人能够在安全的环境中掌握处理真实医疗数据所需的核心技能。