正文

心血管疾病预测：基于克利夫兰数据集的多模型对比与集成优化

使用克利夫兰心脏病数据集构建完整机器学习流程，对比逻辑回归、神经网络和集成学习模型，通过Optuna超参数优化达到91.67%准确率。

心血管疾病预测机器学习逻辑回归神经网络集成学习Optuna优化克利夫兰数据集医疗AI

发布时间 2026/05/12 11:25最近活动 2026/05/12 11:30预计阅读 2 分钟

章节 01

心血管疾病预测研究导读

本研究基于克利夫兰心脏病数据集构建完整机器学习预测流程，对比逻辑回归、神经网络和集成学习模型，通过Optuna超参数优化等技术，最终达到91.67%准确率和0.9632的ROC-AUC。研究探讨了数据预处理优化、模型调优等关键技术，为心血管疾病早期风险识别提供参考方案。

章节 02

心血管疾病是全球主要健康威胁，传统风险评估依赖经验和简单指标，难以充分利用多维度数据。机器学习技术为早期预测提供新可能。

项目采用克利夫兰心脏病数据集（303条记录，14个临床特征），来源UCI和Kaggle，特征包括年龄、性别、胸痛类型等，目标为二分类标签。数据集经缺失值处理、异常值检测和标准化等预处理。

章节 03

项目对比多种模型：

章节 04

章节 05

各模型性能：逻辑回归准确率领先（91.67%），神经网络ROC-AUC最优（0.9632），集成模型平衡两者。调优后最终模型同时达到91.67%准确率和0.9632 ROC-AUC。

结果表明，中小规模表格数据下，传统模型（如逻辑回归）配合特征工程和优化，可达到高预测水平。

章节 06

项目生成ROC曲线对比、混淆矩阵、特征重要性排序等可视化图表，辅助理解模型决策。

项目结构清晰：main.py实现端到端流水线，数据集为heart_cleveland_upload.csv，模型等保存为pickle文件。用户安装依赖后运行main.py可复现实验，README文档提供详细说明。

章节 07

局限性：数据集规模小、地域限制、可解释性和公平性探讨不足。

未来方向：引入多样化大规模数据集、探索先进深度学习架构、开发模型解释工具、部署为临床辅助工具。