# 机器学习预测糖尿病患者用药依从性：津巴布韦医疗数据实践

> 基于津巴布韦Cimas医疗保险公司真实数据，构建经典机器学习模型预测糖尿病和高血压患者的用药依从性，通过特征组对比实验和临床成本敏感评估，为撒哈拉以南非洲地区非传染性疾病管理提供数据驱动的干预策略。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-06T10:16:01.000Z
- 最近活动: 2026-06-06T10:26:26.968Z
- 热度: 154.8
- 关键词: 机器学习, 医疗AI, 用药依从性, 糖尿病, 高血压, 撒哈拉以南非洲, 健康数据科学, XGBoost, SHAP可解释性, 成本敏感学习
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-jeremy-k-coder-diabetes-hypertension-medication-adherence
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-jeremy-k-coder-diabetes-hypertension-medication-adherence
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Kirunda Jeremy Menya (Jeremy-K-coder)
- **来源平台**: GitHub
- **原始标题**: Predicting Medication Non-Adherence in Diabetes and Hypertension Patients Using Machine Learning
- **原始链接**: https://github.com/Jeremy-K-coder/diabetes-hypertension-medication-adherence
- **发布时间**: 2026年6月
- **相关论文**: Kanyongo et al. (2024), Medication adherence classification for non-communicable disease patients through machine learning approaches

---

## 背景：撒哈拉以南非洲的非传染性疾病危机

撒哈拉以南非洲正经历着独特的"双重负担"：传染病尚未完全得到控制，而非传染性疾病（NCDs）却在迅速上升。国际糖尿病联盟估计，到2045年，非洲将经历全球增长最快的糖尿病流行，患病率预计将增加129%。高血压已经影响该地区约30%的成年人，但知晓率和治疗率却处于全球最低水平。

在津巴布韦，这一负担因结构性医疗障碍而加剧：专科医生短缺、药物获取不均、保险体系碎片化以及高昂的自付费用。在这样的背景下，用药依从性不仅仅是行为上的细微差别，它决定了治疗能否转化为实际的健康结果。

### 用药不依从的代价

用药不依从的临床和经济后果严重且已被充分记录：

- **临床层面**：未控制的糖尿病会导致视网膜病变（可预防的失明）、肾病、神经病变和心血管事件；未控制的高血压会引发中风、心力衰竭和慢性肾病。当依从性得到维持时，这两种疾病的管理成本显著降低，效果也更好。

- **经济层面**：撒哈拉以南非洲的研究估计，因不依从而导致的住院费用是药物本身费用的三到五倍。

- **系统层面**：在资源有限的环境中，本可避免的住院消耗了本已极度稀缺的医疗容量。

---

## 项目概述

本项目由Makerere大学的Kirunda Jeremy Menya开发，构建并评估了一个经典机器学习流程，用于**预测津巴布韦糖尿病和高血压患者的用药不依从性**。项目使用了来自**Cimas医疗互助协会**（津巴布韦最大的健康保险提供商之一）的药房续方记录和患者级保险数据。

该数据集是真实的、前瞻性收集的，来源于已发表的学术研究（Kanyongo等，2024年），使其发现直接适用于撒哈拉以南非洲真实卫生系统中的临床决策。

### 核心研究问题

1. 药房续方和保险数据能否在津巴布韦NCD人群中以具有临床意义的准确性预测用药不依从性？
2. 作为社会经济指标的特征（保险层级、成本负担）能否像临床消费特征（续方频率、配药单位）一样预测依从性？
3. 哪些特征对依从性预测贡献最大，这些贡献对社区层面干预设计有何启示？
4. 在成本敏感评估框架下，哪种经典机器学习算法能在预测性能和临床安全性之间实现最佳平衡？

---

## 数据集特征

项目使用了来自Mendeley Data的公开数据集，包含2022年1月至12月期间约8,141名独特患者的记录：

| 属性 | 详情 |
|------|------|
| 数据来源 | Cimas医疗互助协会，哈拉雷，津巴布韦 |
| 患者总数 | 约8,141名独特患者 |
| 疾病类型 | 2型糖尿病、高血压 |
| 依从性定义 | MPR ≥ 75% = 依从；MPR < 75% = 不依从 |
| 标签分布 | 依从约5,700人，不依从约2,441人 |

### 特征工程创新

项目创新性地构建了多个衍生特征：

- **成本负担比率** = 年度索赔金额 / 年度缴费金额（财务压力代理变量）
- **续方间隔天数**（连续药房访问之间的平均天数）
- **续方规律性**（续方间隔的标准差；不规律续方是不依从的行为信号）
- **每次续方单位数** = 年度单位数 / 续方次数（药物强度代理变量）
- **合并症标记**（是否同时患有糖尿病和高血压）
- **保险层级**（基础<标准<高级，社会经济地位代理变量）

---

## 方法学设计

### 特征分组实验

项目设计了一个核心实验，将特征分为三组进行比较：

| 组别 | 包含特征 | 临床问题 |
|------|----------|----------|
| **A组：社会经济** | 保险层级、成本负担比率、年龄组、性别、 wellness计划成员 | 社区卫生工作者能否仅使用患者级数据识别不依从患者？ |
| **B组：临床消费** | 年度单位数、续方间隔天数、续方规律性、每次续方单位数、年度索赔金额 | 仅药房配药行为中包含多少预测信号？ |
| **C组：组合** | A组和B组的所有特征 + 合并症标记、诊断标记 | 用于临床决策支持的完整模型 |

### 机器学习流程

项目使用scikit-learn Pipeline实现端到端处理，确保训练集和测试集之间零数据泄漏：

1. **预处理**：StandardScaler用于连续特征，OneHotEncoder用于名义分类变量，OrdinalEncoder用于有序分类变量
2. **类别不平衡处理**：在交叉验证内对训练折应用SMOTE，不污染测试集
3. **数据分割**：分层70/15/15训练/验证/测试分割（随机种子42）
4. **分类器**：逻辑回归、决策树、随机森林、XGBoost、支持向量机（RBF核）
5. **超参数优化**：RandomizedSearchCV配合5折分层交叉验证，以宏F1而非准确率作为优化目标

### 临床成本敏感评估

项目引入了一个2×2误分类成本矩阵，对假阴性（将不依从患者预测为依从）的惩罚重于假阳性，反映了在资源受限诊所中未能识别出不依从患者的真实后果。

---

## 实验结果与发现

### 基线模型比较

所有五个分类器首先在C组（完整特征集）上进行训练，以建立性能排名。结果表明XGBoost和随机森林表现最佳，值得进行超参数调优。

### 特征组对比关键发现

特征组对比实验揭示了几个重要发现：

1. **临床消费特征（B组）表现强劲**：仅使用药房配药行为数据就能达到接近完整模型的性能，表明续方间隔、规律性等客观指标是依从性的强预测因子。

2. **社会经济特征（A组）具有补充价值**：单独使用保险层级、成本负担等社会经济代理变量也能提供有意义的预测能力，这对缺乏药房数据访问权限的社区卫生工作者具有重要政策含义。

3. **组合模型（C组）性能最优**：完整特征集 consistently 产生最佳性能，验证了多维度数据整合的价值。

### 可解释性分析（SHAP）

项目应用SHAP（SHapley Additive exPlanations）分析提供全局和局部可解释性：

- **全局解释**：识别出对依从性预测贡献最大的特征
- **局部解释**：为单个患者的预测提供特征重要性分解
- **特征交互**：通过SHAP依赖图可视化特征间的交互效应

---

## 临床意义与政策启示

### 对社区卫生工作者的启示

研究发现社会经济特征（保险层级、成本负担比率）能够有效预测依从性，这意味着**社区卫生工作者可以在没有药房数据访问权限的情况下，仅通过患者级社会经济信息识别高风险患者**。这对于资源有限、数据基础设施薄弱的基层医疗环境具有重要实践价值。

### 成本敏感决策框架

项目引入的临床成本敏感评估框架反映了真实世界的决策逻辑：漏诊不依从患者（假阴性）的代价远高于误将依从患者标记为高风险（假阳性）。这一框架可以帮助临床决策者权衡模型性能与临床安全性。

### 干预策略设计

基于特征重要性分析，可以设计针对性的干预策略：

- **高成本负担患者**：提供经济援助或药物补贴计划
- **续方不规律患者**：实施提醒系统或简化续方流程
- **合并症患者**：加强多病共存管理教育

---

## 伦理考量与局限性

### 数据伦理

- 数据集来源于已发表的、同行评审的CC0 1.0许可仓库
- 所有患者记录在由Cimas医疗互助协会存入前已去标识化
- 文件中不包含任何可识别患者身份的信息（姓名、身份证号、地址）

### 公平性与泛化性

- 数据集反映的是哈拉雷城市地区的保险会员群体，主要为正式就业、城市、相对较高收入人群
- 模型预测可能无法推广到非正规部门工作者、农村人口或公立医疗机构患者

### 部署注意事项

- 本项目是学术研究原型，未经临床部署验证
- 真实世界的依从性预测应用需要在代表性人群中进行前瞻性验证
- 必须与患者和临床医生进行利益相关者参与，并透明沟通模型局限性和错误率

---

## 技术实现与复现

项目提供了完整的代码实现，包括：

- **notebooks/**：从01到05的Jupyter笔记本，涵盖EDA、特征工程、基线模型、优化校准、可解释性分析
- **src/**：模块化Python代码，包括特征工程函数、Pipeline构建器、评估指标、成本矩阵计算
- **figures/**：生成的可视化图表，包括依从性分布、SHAP蜂群图、特征组对比、混淆矩阵、ROC曲线

项目要求Python 3.10+，依赖包括scikit-learn、XGBoost、imbalanced-learn、SHAP等标准数据科学库。

---

## 结语

这项研究展示了机器学习在解决撒哈拉以南非洲紧迫公共卫生挑战中的潜力。通过将经典机器学习技术与临床成本敏感评估相结合，项目不仅提供了预测工具，更重要的是为资源受限环境中的精准干预策略设计提供了数据驱动的证据。

随着非洲大陆非传染性疾病负担的持续加重，这类基于真实世界数据、考虑本地医疗系统约束的机器学习应用，将在弥合证据与实践鸿沟方面发挥越来越重要的作用。