章节 01
PARK-GNN挑战赛核心导读
PARK-GNN挑战赛是面向图神经网络学习者的迷你竞赛,将帕金森病语音检测任务建模为图节点分类问题,帮助参与者掌握GNN核心概念与最佳实践。竞赛基于UCI帕金森数据集,采用DGL框架,通过GitHub原生工作流开展,兼具教育价值与开源社区属性。
正文
介绍一个面向图神经网络学习者的迷你竞赛项目,通过将帕金森病语音检测任务建模为图节点分类问题,帮助参与者掌握GNN核心概念和最佳实践。
章节 01
PARK-GNN挑战赛是面向图神经网络学习者的迷你竞赛,将帕金森病语音检测任务建模为图节点分类问题,帮助参与者掌握GNN核心概念与最佳实践。竞赛基于UCI帕金森数据集,采用DGL框架,通过GitHub原生工作流开展,兼具教育价值与开源社区属性。
章节 02
帕金森病早期诊断对延缓病情至关重要,传统机器学习方法将语音样本视为独立数据点,忽略患者间潜在关联。PARK-GNN创新性地将任务重构为图学习任务:节点代表单个语音录音或患者,边编码患者间相似性或共享主体级信息,节点特征包含抖动、闪烁、谐波比等声学测量指标,利用关系信息捕捉传统表格方法遗漏的复杂模式。
章节 03
竞赛使用经典UCI帕金森数据集,原始数据特征包括基频测量(如MDVP:Fo)、抖动变异(如MDVP:Jitter)、闪烁变异(如MDVP:Shimmer)、谐波噪声比(NHR、HHR)、非线性测量(RPDE、DFA等)。图结构构建:节点数195个语音录音(来自31名受试者:23名PD患者,8名健康对照),边采用K近邻(k=5)+同一受试者录音连接策略;训练集156个节点(80%),测试集39个节点(20%,标签隐藏),通过受试者内连接扩充训练信号解决小样本问题。
章节 04
竞赛采用GitHub原生工作流:1. Fork官方仓库;2. 本地训练模型生成预测;3. 加密提交文件;4. Pull Request上传;5. GitHub Actions自动解密评分更新排行榜。评估指标为Macro F1-Score,计算公式为(F1_健康 + F1_帕金森)/2,选择原因是类别不平衡(23:8患者比例),给予两类同等权重。基线GCN模型预期F1分数约0.72-0.78。
章节 05
基础路线:从GCN基线开始,尝试不同隐藏层维度(32、64、128)、调整网络深度(2-4层)、添加Dropout正则化(0.3-0.5)、使用交叉验证评估稳定性。进阶优化:实验KNN图k值(3、5、7、10)、基于相似度添加边权重、尝试GAT机制、引入残差连接缓解过平滑、处理类别不平衡(加权损失、过采样)、模型集成提升鲁棒性、探索GraphSAGE/GIN等架构。需注意过拟合、过平滑、数据泄漏三大陷阱。
章节 06
竞赛设计与DGL官方教程1.1-4.6章节紧密对应,覆盖从表格数据构建图结构、消息传递神经网络原理、图注意力机制、大图采样方法、GNN节点分类任务等内容。作为图神经网络课程的完美实践项目,参与者可巩固理论知识,体验完整机器学习工程流程(数据预处理、模型开发、超参数调优、结果提交、排行榜竞争)。
章节 07
项目采用MIT许可证,数据集遵循CC BY 4.0协议,支持学术和商业自由使用。社区支持渠道包括GitHub Issues(Bug报告)、GitHub Discussions(问答交流)和邮件联系。实时更新的排行榜提供即时反馈,提升学习动力与参与感。
章节 08
竞赛README明确医疗AI伦理考量:模型输出仅供研究参考,不能替代专业医疗诊断;语音数据涉及个人健康信息,需遵守隐私保护法规;警惕算法偏见导致系统性误诊;临床部署前需经过严格监管审批流程,培养负责任AI意识。