Zing 论坛

正文

多模态深度学习结核病分类:ResNet50、MobileNetV2与VGG16的对比研究

本项目实现了一个多模态深度学习系统,结合X光影像和表格数据进行结核病分类。通过对比ResNet50、MobileNetV2和VGG16三种主流CNN架构,并采用5折交叉验证评估,探索了多模态融合在医疗影像诊断中的应用。

多模态深度学习结核病分类ResNet50MobileNetV2VGG16医疗影像X光诊断5折交叉验证
发布时间 2026/06/15 12:38最近活动 2026/06/15 13:04预计阅读 5 分钟
多模态深度学习结核病分类:ResNet50、MobileNetV2与VGG16的对比研究
1

章节 01

导读 / 主楼:多模态深度学习结核病分类:ResNet50、MobileNetV2与VGG16的对比研究

本项目实现了一个多模态深度学习系统,结合X光影像和表格数据进行结核病分类。通过对比ResNet50、MobileNetV2和VGG16三种主流CNN架构,并采用5折交叉验证评估,探索了多模态融合在医疗影像诊断中的应用。

3

章节 03

引言:结核病诊断的AI之路

结核病(Tuberculosis, TB)是全球十大死因之一,每年导致数百万人感染和数十万人死亡。早期、准确的诊断对于控制结核病传播至关重要。传统的结核病诊断方法包括痰涂片镜检、细菌培养和分子检测,但这些方法存在各自的局限性:痰涂片灵敏度低,细菌培养耗时长(2-8周),分子检测成本高昂。

胸部X光检查作为一种快速、无创、成本相对较低的筛查手段,在结核病诊断中发挥着重要作用。然而,X光影像的判读高度依赖放射科医生的经验,在医疗资源匮乏的地区,专业医生的短缺成为诊断瓶颈。

近年来,深度学习技术在医学影像分析领域取得了突破性进展。卷积神经网络(CNN)能够自动从影像中学习特征,在肺结节检测、肺炎诊断、COVID-19筛查等任务上展现出接近甚至超越人类专家的准确率。将深度学习应用于结核病X光影像诊断,有望为资源受限地区提供辅助筛查工具,提高诊断的可及性和一致性。

本项目正是在这一背景下开展的,它不仅探索了单模态(影像)的深度学习分类,更进一步尝试了多模态融合——结合X光影像和患者的临床表格数据(如年龄、性别、症状等),以期获得更准确的诊断结果。

4

章节 04

为什么需要多模态?

在医疗诊断中,医生很少仅凭单一信息源做出判断。一个完整的诊断过程通常包括:

  1. 影像检查:X光、CT、MRI等,提供解剖结构和病变信息
  2. 实验室检查:血液检测、痰培养、基因检测等,提供病理生理指标
  3. 临床信息:年龄、性别、病史、症状、流行病学史等
  4. 体格检查:听诊、触诊等物理检查信息

这些不同来源的信息相互补充,共同支撑诊断决策。例如,X光可能显示肺部阴影,但同样的影像表现可能由结核病、肺炎、肺癌等多种疾病引起。结合患者的年龄、症状持续时间、流行病学接触史等信息,可以大大提高诊断的准确性。

在深度学习领域,这种多源信息的融合被称为多模态学习(Multimodal Learning)。与单模态模型相比,多模态模型有潜力:

  • 提高准确率:利用互补信息减少误判
  • 增强鲁棒性:当某一模态信息缺失或质量不佳时,其他模态可以提供补偿
  • 提高可解释性:多模态模型可以提供更丰富的决策依据
5

章节 05

为什么选择这三种CNN架构?

本项目对比了三种经典的CNN架构:

ResNet50

ResNet(Residual Network)是2015年ImageNet竞赛的冠军模型,其核心创新是残差连接(Residual Connection)。在深层网络中,梯度消失和退化问题是主要挑战,ResNet通过引入跳跃连接(Skip Connection),让梯度可以直接回传到浅层,有效缓解了这些问题。

ResNet50(50层)是ResNet家族中最常用的变体之一,在计算效率和模型容量之间取得了良好平衡。它在医学影像领域被广泛应用,是许多医疗AI系统的首选骨干网络。

MobileNetV2

MobileNet系列专为移动和边缘设备设计,强调轻量化高效推理。MobileNetV2引入了倒残差结构(Inverted Residuals)和线性瓶颈(Linear Bottlenecks),在保持较高准确率的同时大幅减少了参数量和计算量。

在医疗场景中,MobileNetV2的优势在于:

  • 可以在资源受限的设备(如基层医院的普通电脑)上运行
  • 推理速度快,适合实时筛查
  • 模型体积小,便于部署和更新

VGG16

VGGNet是2014年ImageNet竞赛的亚军模型,以其简洁优雅的结构著称。VGG16采用连续的小卷积核(3x3)堆叠,通过增加深度提升特征提取能力。虽然VGG16在参数量和计算量上不如后来的模型高效,但其结构直观、易于理解和修改,至今仍是教学和研究中的常用基准。

6

章节 06

数据来源

本项目使用的数据集包含两部分:

1. 胸部X光影像

X光影像来自公开的结核病数据集(如Shenzhen或Montgomery数据集,或类似的公开医疗影像数据集)。这些影像经过以下预处理:

  • 尺寸归一化:统一调整为模型输入尺寸(如224x224或299x299)
  • 灰度/彩色转换:根据模型要求转换为3通道彩色图像或保持单通道灰度
  • 归一化:像素值归一化到[0,1]或[-1,1]范围
  • 数据增强:训练时应用随机旋转、翻转、缩放、亮度调整等增强,提高模型泛化能力

2. 表格临床数据

表格数据包含患者的临床信息,可能包括:

  • 人口统计学信息:年龄、性别
  • 症状:咳嗽、发热、盗汗、体重减轻等
  • 病史:既往结核病史、接触史、HIV状态等
  • 实验室指标:血常规、炎症标志物等(如有)

表格数据经过以下预处理:

  • 缺失值处理:填充或删除缺失数据
  • 类别编码:将类别变量转换为数值(如独热编码、标签编码)
  • 数值归一化:将数值特征缩放到统一范围
  • 特征选择:根据相关性或领域知识选择最相关的特征
7

章节 07

数据划分策略

本项目采用5折交叉验证(5-Fold Cross-Validation),这是一种稳健的性能评估方法:

  1. 将整个数据集随机划分为5个子集(fold)
  2. 每次使用4个子集作为训练集,1个子集作为验证集
  3. 重复5次,确保每个子集都作为验证集一次
  4. 最后取5次验证结果的平均值作为模型性能指标

交叉验证的优势在于:

  • 更充分地利用数据(每个样本都参与训练和验证)
  • 减少随机划分带来的方差
  • 提供更可靠的性能估计
8

章节 08

单模态基线模型

首先,项目建立了仅使用X光影像的单模态基线模型:

输入:X光影像 (224x224x3)
    ↓
CNN骨干网络(ResNet50/MobileNetV2/VGG16)
    ↓
全局平均池化 / 全连接层
    ↓
分类层(2类:正常/结核)
    ↓
输出:Softmax概率

单模态模型用于验证CNN在结核病影像分类上的有效性,并为多模态融合提供对比基准。