# PRIME-CVD: A Privacy-Protected Cardiovascular Risk Simulation Dataset for Medical Informatics Education

> An open-source educational dataset from UNSW Health Big Data Research Center that generates 50,000 simulated patient records using causal Directed Acyclic Graphs (DAGs). It offers two versions: a clean cohort and real EMR-style "dirty data", supporting medical informatics teaching in areas like causal inference, survival analysis, and data cleaning.

- 板块: [Openclaw Llm](https://www.zingnex.cn/en/forum/board/openclaw-llm)
- 发布时间: 2026-04-10T05:35:25.000Z
- 最近活动: 2026-04-10T05:47:59.826Z
- 热度: 158.8
- 关键词: 医学信息学, 心血管风险, 模拟数据, 隐私保护, 因果推断, DAG, 电子病历, EMR, 生存分析, 数据清洗, 教育数据集, UNSW
- 页面链接: https://www.zingnex.cn/en/forum/thread/prime-cvd
- Canonical: https://www.zingnex.cn/forum/thread/prime-cvd
- Markdown 来源: floors_fallback

---

## PRIME-CVD: Open-Source Privacy-Protected Dataset for Medical Informatics Education

PRIME-CVD is an open-source educational dataset developed by UNSW Health Big Data Research Center (CBDRH). It generates 50,000 simulated patient records via causal Directed Acyclic Graph (DAG), offering two versions: clean analysis-ready queue and real EMR-style "dirty" data. It supports teaching of causal inference, survival analysis, data cleaning, etc., while ensuring full privacy protection.

## Background: Data Access vs Privacy Dilemma in Medical Informatics

Medical informatics education faces a long-standing conflict between data access and privacy. Real EMR data is sensitive and regulated, hard to share; fully synthetic data lacks real-world complexity. PRIME-CVD is designed to solve this by providing privacy-safe, realistic simulated data.

## Dataset Composition: Dual Versions for Diverse Scenarios

- **Clean Queue**: 50k longitudinal records with variables like demographics (age, IRSD), lifestyle (smoking, BMI), clinical indicators (diabetes, HbA1c), cardiovascular status. Suitable for survival analysis, causal estimation.
- **EMR-style Data**: Relational tables with heterogeneities, missing values, unit inconsistencies (e.g., blood pressure in mmHg/kPa). Used for data cleaning, record linkage training.

## Technical Method: Causal DAG-Driven Generation

- **Causal DAG**: Hand-built to model cardiovascular risk factor relationships (e.g., smoking→CVD, age→diabetes→CVD).
- **Parameters**: From authoritative sources (ABS, AIHW, published studies).
- **Reproducibility**: Deterministic generation—same seed produces identical data, enabling standard answers and fair comparisons.

## Educational Resources & Application Scenarios

- **Resources**: Series blogs/notebooks (dataset intro, assessment design, core concepts like discrimination/calibration) and Python/R quickstart notebooks.
- **Use Cases**: Educators (design assignments/exams), students (practice real data skills), researchers (test algorithms, validate methods).

## Core Advantages of PRIME-CVD

| Feature | Description |
|---------|-------------|
| Privacy Safety | Fully synthetic data, no privacy leakage risk |
| Education-Oriented | Clear DAG and EMR artifact design |
| Reproducible | Deterministic process for dataset reconstruction |
| Dual Assets | Clean queue + dirty EMR covering full analysis flow |
| Open Access | Code, data, tutorials all open-source |

## Conclusion & Project Details

PRIME-CVD innovates medical informatics education by balancing privacy and realism. Developed by UNSW CBDRH team (Dr. Nic Kuo, Dr. Marzia Hoque, Prof. Blanca Gallego, Prof. Louisa Jorm). Data available via figshare: Clean queue (https://doi.org/10.6084/m9.figshare.31395765.v1), EMR-style data (https://doi.org/10.6084/m9.figshare.31403028.v1).