Zing 论坛

正文

心血管疾病预测:基于克利夫兰数据集的多模型对比与集成优化

使用克利夫兰心脏病数据集构建完整机器学习流程,对比逻辑回归、神经网络和集成学习模型,通过Optuna超参数优化达到91.67%准确率。

心血管疾病预测机器学习逻辑回归神经网络集成学习Optuna优化克利夫兰数据集医疗AI
发布时间 2026/05/12 11:25最近活动 2026/05/12 11:30预计阅读 2 分钟
心血管疾病预测:基于克利夫兰数据集的多模型对比与集成优化
1

章节 01

心血管疾病预测研究导读

本研究基于克利夫兰心脏病数据集构建完整机器学习预测流程,对比逻辑回归、神经网络和集成学习模型,通过Optuna超参数优化等技术,最终达到91.67%准确率和0.9632的ROC-AUC。研究探讨了数据预处理优化、模型调优等关键技术,为心血管疾病早期风险识别提供参考方案。

2

章节 02

研究背景与数据集介绍

心血管疾病是全球主要健康威胁,传统风险评估依赖经验和简单指标,难以充分利用多维度数据。机器学习技术为早期预测提供新可能。

项目采用克利夫兰心脏病数据集(303条记录,14个临床特征),来源UCI和Kaggle,特征包括年龄、性别、胸痛类型等,目标为二分类标签。数据集经缺失值处理、异常值检测和标准化等预处理。

3

章节 03

模型设计与方法论

项目对比多种模型:

  1. 逻辑回归:作为基线,经Z-Score标准化和SMOTE增强后,测试集准确率91.67%,ROC-AUC 0.9520;
  2. 神经网络:Keras构建,含Dropout、批量归一化和早停机制,准确率88.33%,ROC-AUC 0.9632;
  3. 集成学习:软投票策略融合基学习器,平衡准确率与ROC-AUC。
4

章节 04

关键技术优化点

  1. 数据预处理:Z-Score消除量纲差异,SMOTE解决类别不平衡;
  2. 超参数优化:Optuna贝叶斯优化(100轮)提升调参效率;
  3. 阈值调整:优化F1分数确定最佳阈值,ROC-AUC提升至0.9632;
  4. 交叉验证:10折分层交叉验证确保评估稳定。
5

章节 05

实验结果对比分析

各模型性能:逻辑回归准确率领先(91.67%),神经网络ROC-AUC最优(0.9632),集成模型平衡两者。调优后最终模型同时达到91.67%准确率和0.9632 ROC-AUC。

结果表明,中小规模表格数据下,传统模型(如逻辑回归)配合特征工程和优化,可达到高预测水平。

6

章节 06

可视化与项目使用指南

项目生成ROC曲线对比、混淆矩阵、特征重要性排序等可视化图表,辅助理解模型决策。

项目结构清晰:main.py实现端到端流水线,数据集为heart_cleveland_upload.csv,模型等保存为pickle文件。用户安装依赖后运行main.py可复现实验,README文档提供详细说明。

7

章节 07

局限性与未来改进方向

局限性:数据集规模小、地域限制、可解释性和公平性探讨不足。

未来方向:引入多样化大规模数据集、探索先进深度学习架构、开发模型解释工具、部署为临床辅助工具。