# 疟疾疫情预测系统：一个端到端MLOps实践案例

> 瑞士卢塞恩应用科学与艺术大学的学生项目，构建了一个基于机器学习的疟疾疫情预测系统，完整展示了从数据准备到生产部署的MLOps全流程。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-06T21:57:11.000Z
- 最近活动: 2026-06-06T22:18:38.836Z
- 热度: 167.6
- 关键词: MLOps, machine learning, malaria prediction, public health, epidemiology, logistic regression, MLflow, FastAPI, Docker, CI/CD, model monitoring, data drift
- 页面链接: https://www.zingnex.cn/forum/thread/mlops-aa587f8c
- Canonical: https://www.zingnex.cn/forum/thread/mlops-aa587f8c
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Lamiorkor
- **来源平台**: GitHub
- **原始标题**: Malaria_Outbreak_Prediction
- **原始链接**: https://github.com/Lamiorkor/Malaria_Outbreak_Prediction
- **发布时间**: 2026年6月6日
- **项目背景**: 瑞士卢塞恩应用科学与艺术大学（HSLU）人工智能课程（ARTIFIN）的结课项目

---

## 项目概述

这是一个面向生产环境的机器学习系统，能够利用气候、人口统计和历史疟疾发病率数据来预测疟疾疫情风险。与传统的机器学习项目不同，该项目不仅完成了模型训练，还完整实现了机器学习生命周期中的各个环节，包括实验追踪、部署、监控、自动化、测试、容器化和CI/CD流程。

气候变化正在重塑全球疾病传播模式。气温上升、降雨模式改变以及环境条件的变化正在影响蚊媒传染病（如疟疾）的传播。目前，公共卫生部门的应对措施往往是被动的，只能在疫情爆发后才做出反应。该项目通过开发一个AI驱动的早期预警系统来解决这一挑战，该系统能够利用气候、环境和社会经济指标来预测特定国家在未来一段时间内发生疟疾疫情的概率。

---

## 核心功能与应用场景

该系统的主要目标是支持主动决策，实现以下功能：

- **早期疫情检测**：在疟疾疫情实际爆发前识别高风险时期
- **资源规划**：帮助卫生部门提前分配医疗资源和防护物资
- **公共卫生准备**：为疫苗接种和预防措施提供时间窗口
- **气候健康风险评估**：评估气候变化对疾病传播的长期影响

潜在用户包括卫生部、世界卫生组织（WHO）、非政府组织、公共卫生机构、气候适应项目和疾病监测项目。该项目处于人工智能、公共卫生、流行病学、气候科学、数据工程和MLOps等多个学科的交叉点。

---

## 技术栈与架构设计

### 核心技术组件

该项目采用了现代机器学习工程中的主流技术栈：

- **机器学习框架**: Scikit-Learn（逻辑回归）、Pandas、NumPy
- **实验追踪**: MLflow
- **API服务**: FastAPI + Uvicorn
- **容器化**: Docker + Docker Compose
- **工作流编排**: Prefect
- **数据存储**: PostgreSQL
- **模型监控**: Evidently AI
- **可视化监控**: Grafana
- **测试框架**: Pytest
- **CI/CD**: GitHub Actions + GitHub Container Registry

### 数据输入与特征工程

模型整合了多源数据，包括历史疟疾发病率数据、气候指标、人口密度数据和人均GDP数据。这些数据经过合并和转换，形成了机器学习就绪的特征存储。

最终模型使用了气候、时间序列和社会经济特征的组合，包括：

**基础特征**：
- 疟疾发病率（Malaria_Incidence）
- 年降水量（Precipitation_mm）
- 人口密度（Pop_Density）
- 人均GDP（GDP_per_Capita）
- 年平均温度（Temp_Annual_Mean_C）
- 生长季平均温度（Temp_GrowingSeason_Mean_C）

**滞后特征**（捕捉时间依赖性）：
- 疟疾发病率滞后1-3期（Malaria_Lag1/2/3）
- 温度滞后1期（Temp_Lag1）
- 降水滞后1期（Precip_Lag1）
- GDP滞后1期（GDP_Lag1）

**滚动统计特征**（平滑短期波动）：
- 疟疾发病率3期滚动平均（Malaria_Roll3）
- 温度3期滚动平均（Temp_Roll3）
- 降水3期滚动平均（Precip_Roll3）

**衍生特征**（捕捉复杂关系）：
- 疟疾发病率同比变化（Malaria_YoY_Change）
- 温度与降水交互项（Temp_Precip_Interaction）
- 温度平方项（Temp_Squared）
- 气候风险指数（Climate_Risk_Index）
- 脆弱性指数（Vulnerability_Index）
- GDP和疟疾发病率的对数变换（Log_GDP, Log_Malaria_Incidence）

---

## 模型性能与预测输出

### 模型选择

项目采用逻辑回归（Logistic Regression）作为基线模型，配置如下：

```python
LogisticRegression(
    C=1.0,
    class_weight="balanced",  # 处理类别不平衡
    solver="liblinear",
    max_iter=1000,
    random_state=42
)
```

选择逻辑回归的原因在于其可解释性强、训练速度快、适合二分类问题，且便于与MLOps工具链集成。

### 性能指标

| 指标 | 验证集 | 测试集 |
|------|--------|--------|
| AUC-ROC | 0.993 | 0.998 |
| F1分数 | 0.980 | 0.935 |
| 召回率 | 1.000 | 1.000 |
| 精确率 | 0.960 | 0.878 |

测试集上AUC-ROC达到0.998，表明模型具有极强的区分能力。召回率达到100%意味着模型能够识别出所有实际发生的疫情，这对于公共卫生预警系统至关重要。

### 预测输出格式

系统返回结构化的JSON预测结果：

```json
{
  "country": "Ghana",
  "year": 2023,
  "outbreak_probability": 0.42,
  "outbreak_alert": false,
  "risk_level": "LOW"
}
```

### 风险分级标准

| 概率范围 | 风险等级 |
|----------|----------|
| < 0.40 | 低风险（LOW） |
| 0.40 - 0.69 | 中风险（MEDIUM） |
| ≥ 0.70 | 高风险（HIGH） |

当概率≥0.5时触发疫情警报（outbreak_alert = true）。

---

## MLOps实践详解

### 实验追踪与模型版本管理

项目使用MLflow进行全面的实验追踪，记录内容包括：

- 超参数配置
- 训练运行记录
- 性能指标
- 模型工件（artifacts）
- 模型元数据

存储的工件包括训练好的逻辑回归模型、特征缩放器（scaler）和模型元数据文件。这确保了实验的可复现性和可追溯性，便于比较不同实验配置的效果。

### API服务与容器化

训练好的模型通过FastAPI应用提供服务，提供以下端点：

- `GET /`：服务健康检查
- `GET /model/info`：获取模型元数据信息
- `POST /predict`：提交预测请求

应用使用Docker进行容器化，带来以下优势：

- **可复现性**：确保开发、测试和生产环境一致
- **环境一致性**：消除"在我机器上能跑"的问题
- **易于部署**：简化运维流程
- **依赖管理**：隔离项目依赖与系统环境

Docker Compose编排的本地完整栈包括三个服务：

```
┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Client    │────▶│  malaria-api│────▶│  PostgreSQL │
└─────────────┘     └─────────────┘     └─────────────┘
                           │                    ▲
                           │                    │
                           ▼                    │
                    ┌─────────────┐             │
                    │    MLflow   │─────────────┘
                    └─────────────┘
```

- **malaria-api**（端口8000）：提供预测服务
- **MLflow**：追踪实验和存储模型工件
- **PostgreSQL**（端口5433）：存储预测日志和监控数据

### 预测日志与审计追踪

每个预测请求都会被记录到PostgreSQL数据库中，存储的信息包括：

- 国家、年份
- 输入特征值
- 滞后特征值
- 疫情概率
- 预测结果
- 模型版本
- 推理延迟
- 时间戳

这创建了可审计的预测历史记录，支持监控工作流和事后分析。

### 模型监控与数据漂移检测

项目实现了专门的监控流水线，在部署后评估模型健康状况：

**监控内容**：
- 数据漂移检测
- 特征漂移监控
- 批量评估
- 统计检验
- 历史监控日志

**检测方法**：
- 使用Kolmogorov-Smirnov（KS）检验
- 参考数据集与当前数据集对比
- 识别显著分布偏移

**监控输出**：
- 漂移指标
- 特征级漂移报告
- 监控仪表板
- 警报生成

Grafana用于可视化展示预测量、漂移指标、模型健康指标和监控统计数据，为运维团队提供系统运行的全面可见性。

### 自动化工作流编排

项目使用Prefect实现自动化调度，包括：

- 定时模型执行
- 自动化预测任务
- 批处理工作流

虽然部署调度在项目中仅作演示，但展示了机器学习工作流如何在生产环境中进行编排。

---

## 测试策略与质量保证

项目实现了多层次的自动化测试：

### 单元测试

验证预测逻辑、输入验证、特征数量校验和错误处理。

### API契约测试

验证请求模式、字段类型、值范围和必填字段。

### 集成测试

验证端到端预测流水线、特征工程、模型推理和输出结构。

### CI/CD流水线

GitHub Actions自动化测试和部署流程：

**每次推送触发**：
1. 语法验证
2. 依赖安装
3. 单元测试
4. API契约测试
5. 冒烟测试

**CI通过后**：
1. 构建Docker镜像
2. 镜像标记
3. 发布到GitHub Container Registry
4. 容器冒烟测试

流水线流程：
```
Push → Run Tests → Build Docker Image → Publish to GHCR → Smoke Test
```

---

## 项目结构与代码组织

```
.
├── .github/workflows/ci-cd.yml    # CI/CD配置
├── dockerisation_and_deployment/ # 部署相关代码
│   ├── batch/                     # 批处理脚本
│   └── webservices/               # Web服务代码
├── model_tracking/                # MLflow追踪配置
├── models/                        # 训练好的模型
│   ├── logistic_regression.pkl
│   ├── scaler.pkl
│   └── model_metadata.json
├── monitoring/                    # 监控配置
├── tests/                         # 测试代码
├── training_pipeline/             # 训练流水线
├── docker-compose.yml             # 本地开发环境
├── init.sql                       # 数据库初始化
├── requirements.txt               # 生产依赖
├── requirements-dev.txt         # 开发依赖
└── README.md                      # 项目文档
```

---

## 技术亮点与可借鉴之处

### 1. 完整的MLOps生命周期

与许多仅停留在模型训练阶段的项目不同，该项目完整实现了机器学习的全生命周期：

✅ 数据准备
✅ 特征工程
✅ 模型训练
✅ 实验追踪
✅ API部署
✅ 容器化
✅ 监控与漂移检测
✅ 自动化测试
✅ CI/CD流水线

### 2. 特征工程的系统性

项目展示了如何系统性地构建特征，包括基础特征、滞后特征、滚动统计特征和衍生特征。这种分层特征工程方法能够有效捕捉时间序列数据的复杂模式。

### 3. 可解释性与实用性平衡

选择逻辑回归而非更复杂的黑盒模型（如深度学习），在保证高预测性能的同时提供了良好的可解释性。这对于公共卫生领域的决策者尤为重要，他们需要理解预测背后的逻辑。

### 4. 生产就绪的设计

从项目伊始就考虑了生产环境的需求，包括：
- 完整的日志记录
- 模型版本管理
- 漂移检测机制
- 自动化测试覆盖
- 容器化部署

### 5. 社会责任导向

项目聚焦于疟疾这一全球公共卫生挑战，体现了技术服务于社会福祉的理念。系统的潜在用户包括发展中国家的卫生部和国际卫生组织，具有明确的实际应用价值。

---

## 局限性与改进方向

### 当前局限

1. **数据覆盖范围**：项目文档未明确说明训练数据的具体来源和时间跨度
2. **地理泛化能力**：模型在特定国家训练，泛化到其他地区的性能需要验证
3. **实时数据接入**：目前似乎使用静态数据集，未提及与实时气象/卫生数据系统的集成

### 潜在改进

1. **模型升级**：尝试XGBoost、LightGBM或时间序列专用模型（如LSTM、Prophet）
2. **不确定性量化**：引入概率预测区间，提供更丰富的风险信息
3. **地理空间建模**：整合空间信息，使用图神经网络或空间自回归模型
4. **实时数据流**：集成Apache Kafka或类似流处理框架，支持实时预测
5. **A/B测试框架**：添加模型版本对比机制，支持安全的新模型上线

---

## 总结

这个疟疾疫情预测项目是一个优秀的MLOps教学案例，展示了如何将机器学习模型从实验阶段推进到生产环境。项目的技术选型务实，架构设计清晰，测试覆盖全面，文档完整。对于希望学习MLOps最佳实践的开发者，或者需要将机器学习项目从原型阶段推进到生产部署的团队，该项目提供了很好的参考。

更重要的是，该项目展示了技术如何服务于全球健康挑战。在气候变化加剧传染病传播的背景下，这样的预测系统能够帮助公共卫生部门提前做好准备， potentially saving lives in vulnerable regions.