# PARK-GNN挑战赛：用图神经网络检测帕金森病的开源竞赛

> 介绍一个面向图神经网络学习者的迷你竞赛项目，通过将帕金森病语音检测任务建模为图节点分类问题，帮助参与者掌握GNN核心概念和最佳实践。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-16T12:26:35.000Z
- 最近活动: 2026-05-16T12:33:12.057Z
- 热度: 155.9
- 关键词: 图神经网络, 医疗AI, 帕金森病, 开源竞赛, 节点分类, DGL
- 页面链接: https://www.zingnex.cn/forum/thread/park-gnn
- Canonical: https://www.zingnex.cn/forum/thread/park-gnn
- Markdown 来源: ingested_event

---

## 竞赛背景：为什么用图神经网络检测帕金森病？

帕金森病（Parkinson's Disease, PD）是一种常见的神经退行性疾病，早期诊断对于延缓病情进展至关重要。研究表明，帕金森病患者的声带功能会出现可量化的异常，包括抖动（jitter）、闪烁（shimmer）和基频变化等声学特征。

传统的机器学习方法将每个语音样本视为独立的数据点，忽略了患者之间的潜在关联。然而，同一患者的多次录音之间存在内在联系，而不同患者之间也可能存在相似的症状模式。PARK-GNN挑战赛创新性地将这一问题重构为图学习任务：

- **节点**：代表单个语音录音（或患者）
- **边**：编码患者间的相似性或共享的主体级信息
- **节点特征**：包含抖动、闪烁、谐波比等声学测量指标

这种图结构建模允许模型利用关系信息，捕捉传统表格方法可能遗漏的复杂模式。

## 数据集详解

竞赛使用经典的UCI帕金森数据集，经过重新组织以适应图学习场景：

**原始数据特征**（来自语音信号分析）：
- **基频测量**：MDVP:Fo(Hz)、MDVP:Fhi(Hz)、MDVP:Flo(Hz)
- **抖动变异**：MDVP:Jitter(%)、MDVP:Jitter(Abs)、MDVP:RAP、MDVP:PPQ、Jitter:DDP
- **闪烁变异**：MDVP:Shimmer、MDVP:Shimmer(dB)、Shimmer:APQ3、Shimmer:APQ5、MDVP:APQ、Shimmer:DDA
- **谐波噪声比**：NHR（噪声谐波比）、HHR（谐波噪声比）
- **非线性测量**：RPDE、DFA、spread1、spread2、D2、PPE

**图结构构建**：
- 节点数：195个语音录音（来自31名受试者：23名PD患者，8名健康对照）
- 边构建策略：K近邻（k=5）+ 同一受试者的录音连接
- 训练集：156个节点（80%）
- 测试集：39个节点（20%，标签隐藏）

这种设计巧妙地解决了小样本问题：虽然只有31名受试者，但通过将多次录音作为独立节点并建立受试者内连接，有效扩充了训练信号。

## 竞赛机制与评估指标

与传统Kaggle竞赛不同，PARK-GNN采用GitHub原生工作流：

1. Fork官方仓库
2. 在本地训练模型并生成预测
3. 使用提供的加密脚本加密提交文件
4. 提交加密文件并通过Pull Request上传
5. GitHub Actions自动解密、评分并更新排行榜

**评估指标**：Macro F1-Score

```
Macro F1 = (F1_健康 + F1_帕金森) / 2
```

选择Macro F1而非准确率的原因在于类别不平衡（23:8的患者比例）。Macro F1给予两个类别同等权重，更能反映模型在真实医疗场景中的诊断能力。基线GCN模型的预期F1分数约为0.72-0.78，为参与者提供了明确的改进目标。

## 技术路线与进阶建议

项目提供了两个基线实现供参考：

**基础路线**：
- 从GCN（图卷积网络）基线开始
- 尝试不同的隐藏层维度（32、64、128）
- 调整网络深度（2-4层）
- 添加Dropout正则化（0.3-0.5）
- 使用交叉验证评估稳定性

**进阶优化**：
- 实验KNN图的k值（3、5、7、10）
- 基于相似度添加边权重
- 尝试GAT（图注意力网络）机制
- 引入残差连接缓解过平滑
- 处理类别不平衡（加权损失、过采样）
- 模型集成提升鲁棒性
- 探索GraphSAGE、GIN等先进架构

项目文档特别提醒注意三个常见陷阱：过拟合（小数据集需强正则化）、过平滑（层数过多导致节点表示趋同）、以及数据泄漏（严禁使用测试标签）。

## 教育价值与学习路径

PARK-GNN的设计充分考虑了教学需求，与DGL（Deep Graph Library）官方教程的1.1-4.6章节紧密对应：

- 从表格数据构建图结构
- 消息传递神经网络（MPNN）原理
- 图注意力机制（GAT）
- 大图采样方法
- GNN节点分类任务

这种结构化设计使竞赛成为图神经网络课程的完美实践项目。参与者不仅能巩固理论知识，还能体验完整的机器学习工程流程：数据预处理、模型开发、超参数调优、结果提交和排行榜竞争。

## 社区与开源治理

项目采用MIT许可证，数据集遵循CC BY 4.0协议，确保了学术和商业使用的自由度。社区支持渠道包括GitHub Issues（Bug报告）、GitHub Discussions（问答交流）和邮件联系，形成了完整的开源治理结构。

排行榜实时更新，参与者可以随时查看自己的排名和分数变化。这种即时反馈机制极大提升了学习动力和参与感。

## 医疗AI的伦理边界

虽然这是一个教育竞赛，但README文档明确指出了医疗AI应用的伦理考量：

- 模型输出仅供研究参考，不能替代专业医疗诊断
- 语音数据涉及个人健康信息，需遵守隐私保护法规
- 算法偏见可能导致某些人群被系统性误诊
- 临床部署前需经过严格的监管审批流程

这种负责任的AI意识培养，对于培养下一代机器学习工程师至关重要。