正文

医疗分类中的神经网络实践：乳腺癌检测的深度学习与传统方法对比研究

基于威斯康星乳腺癌数据集的开源项目，使用 TensorFlow/Keras 构建人工神经网络，并与 Scikit-Learn 的随机森林等传统机器学习算法进行性能对比。项目包含架构实验、正则化技术探索和可视化分析，为医疗 AI 模型选择提供实证参考。

医疗 AI神经网络随机森林乳腺癌检测TensorFlowScikit-Learn机器学习对比特征工程模型选择医疗分类

发布时间 2026/05/24 16:41最近活动 2026/05/24 16:55预计阅读 4 分钟

章节 01

导读 / 主楼：医疗分类中的神经网络实践：乳腺癌检测的深度学习与传统方法对比研究

章节 02

原作者与来源

原作者/维护者： Asepe-dev
来源平台： GitHub
原始标题： neural-network-medical-classification
原始链接： https://github.com/Asepe-dev/neural-network-medical-classification
发布时间： 2026-05-24

章节 03

医疗 AI 的两难选择

在医疗诊断领域，人工智能技术的应用正在快速发展。从影像识别到病理分析，从药物发现到个性化治疗，AI 展现出巨大的潜力。然而，在实际应用中，开发者和研究人员经常面临一个关键问题：应该使用复杂的深度学习模型，还是传统的机器学习算法？

深度学习模型（特别是神经网络）在图像、语音、自然语言处理等领域取得了突破性成果，但在结构化医疗数据上的表现是否同样出色？传统机器学习算法（如随机森林、支持向量机）经过多年的优化和验证，在医疗领域已有广泛应用，是否还有必要转向神经网络？

章节 04

本项目的研究目标

neural-network-medical-classification 项目正是为了回答上述问题而设计的实证研究。项目选取了经典的威斯康星乳腺癌数据集，通过以下步骤进行系统性的对比分析：

构建一个基准神经网络模型
使用相同的训练数据训练传统机器学习模型
在相同测试集上评估两者的性能
对神经网络进行架构优化实验
综合分析结果，为模型选择提供参考

章节 05

威斯康星乳腺癌数据集

项目使用的是 Scikit-Learn 内置的威斯康星乳腺癌数据集（Breast Cancer Wisconsin Dataset），这是机器学习领域最经典的医疗数据集之一。

数据集特征

样本数量： 569 个病例
特征维度： 30 个数值型特征
任务类型： 二分类问题
目标类别：
- 恶性（Malignant）
- 良性（Benign）

特征说明

这 30 个特征都是从数字化乳腺肿块细针穿刺（FNA）图像中提取的量化指标，包括：

细胞核半径： 从中心到周边点的平均距离
细胞核纹理： 灰度值的标准差
细胞核周长
细胞核面积
平滑度： 半径长度的局部变化
紧凑度： （周长² / 面积 - 1）
凹度： 轮廓凹入部分的严重程度
凹点： 轮廓凹入部分的数量
对称性
分形维数

每个特征都计算了均值、标准差和最大值，因此共有 30 个特征。

数据加载方式

from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()
X = data.data
y = data.target

无需外部下载，Scikit-Learn 内置数据集可直接使用。

章节 06

训练测试分割

项目采用标准的 80/20 分割策略：

训练集： 80% 的数据用于模型训练
测试集： 20% 的数据用于最终性能评估

这种分割确保了评估结果的客观性，避免模型对训练数据的过拟合。

章节 07

特征标准化

使用 Scikit-Learn 的 StandardScaler 对特征进行标准化处理：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

标准化的必要性：

消除量纲影响： 不同特征的量纲和取值范围差异很大
加速收敛： 神经网络训练时，标准化数据有助于梯度下降更快收敛
公平比较： 确保神经网络和传统模型在相同的特征尺度下比较

章节 08

模型架构

项目构建了一个简洁但有效的神经网络架构：

输入层

输入维度：30（对应 30 个特征）

隐藏层

神经元数量： 64
激活函数： ReLU（Rectified Linear Unit）
作用： 学习输入特征的非线性组合

输出层

神经元数量： 1
激活函数： Sigmoid
作用： 输出 0-1 之间的概率值，表示恶性肿瘤的概率