正文

多模态深度学习结核病分类：ResNet50、MobileNetV2与VGG16的对比研究

本项目实现了一个多模态深度学习系统，结合X光影像和表格数据进行结核病分类。通过对比ResNet50、MobileNetV2和VGG16三种主流CNN架构，并采用5折交叉验证评估，探索了多模态融合在医疗影像诊断中的应用。

多模态深度学习结核病分类ResNet50MobileNetV2VGG16医疗影像X光诊断5折交叉验证

发布时间 2026/06/15 12:38最近活动 2026/06/15 13:04预计阅读 5 分钟

章节 01

导读 / 主楼：多模态深度学习结核病分类：ResNet50、MobileNetV2与VGG16的对比研究

章节 02

原作者与来源

原作者/维护者：FebriyanBiopsaMinanda
来源平台：GitHub
原文标题：Comparative-Analysis-of-Deep-Learning-Models-for-Multimodal-Tuberculosis-Classification
原文链接：https://github.com/FebriyanBiopsaMinanda/Comparative-Analysis-of-Deep-Learning-Models-for-Multimodal-Tuberculosis-Classification
发布时间：2026年6月15日

章节 03

引言：结核病诊断的AI之路

结核病（Tuberculosis, TB）是全球十大死因之一，每年导致数百万人感染和数十万人死亡。早期、准确的诊断对于控制结核病传播至关重要。传统的结核病诊断方法包括痰涂片镜检、细菌培养和分子检测，但这些方法存在各自的局限性：痰涂片灵敏度低，细菌培养耗时长（2-8周），分子检测成本高昂。

胸部X光检查作为一种快速、无创、成本相对较低的筛查手段，在结核病诊断中发挥着重要作用。然而，X光影像的判读高度依赖放射科医生的经验，在医疗资源匮乏的地区，专业医生的短缺成为诊断瓶颈。

近年来，深度学习技术在医学影像分析领域取得了突破性进展。卷积神经网络（CNN）能够自动从影像中学习特征，在肺结节检测、肺炎诊断、COVID-19筛查等任务上展现出接近甚至超越人类专家的准确率。将深度学习应用于结核病X光影像诊断，有望为资源受限地区提供辅助筛查工具，提高诊断的可及性和一致性。

本项目正是在这一背景下开展的，它不仅探索了单模态（影像）的深度学习分类，更进一步尝试了多模态融合——结合X光影像和患者的临床表格数据（如年龄、性别、症状等），以期获得更准确的诊断结果。

章节 04

为什么需要多模态？

在医疗诊断中，医生很少仅凭单一信息源做出判断。一个完整的诊断过程通常包括：

影像检查：X光、CT、MRI等，提供解剖结构和病变信息
实验室检查：血液检测、痰培养、基因检测等，提供病理生理指标
临床信息：年龄、性别、病史、症状、流行病学史等
体格检查：听诊、触诊等物理检查信息

这些不同来源的信息相互补充，共同支撑诊断决策。例如，X光可能显示肺部阴影，但同样的影像表现可能由结核病、肺炎、肺癌等多种疾病引起。结合患者的年龄、症状持续时间、流行病学接触史等信息，可以大大提高诊断的准确性。

在深度学习领域，这种多源信息的融合被称为多模态学习（Multimodal Learning）。与单模态模型相比，多模态模型有潜力：

提高准确率：利用互补信息减少误判
增强鲁棒性：当某一模态信息缺失或质量不佳时，其他模态可以提供补偿
提高可解释性：多模态模型可以提供更丰富的决策依据

章节 05

为什么选择这三种CNN架构？

本项目对比了三种经典的CNN架构：

ResNet50

ResNet（Residual Network）是2015年ImageNet竞赛的冠军模型，其核心创新是残差连接（Residual Connection）。在深层网络中，梯度消失和退化问题是主要挑战，ResNet通过引入跳跃连接（Skip Connection），让梯度可以直接回传到浅层，有效缓解了这些问题。

ResNet50（50层）是ResNet家族中最常用的变体之一，在计算效率和模型容量之间取得了良好平衡。它在医学影像领域被广泛应用，是许多医疗AI系统的首选骨干网络。

MobileNetV2

MobileNet系列专为移动和边缘设备设计，强调轻量化和高效推理。MobileNetV2引入了倒残差结构（Inverted Residuals）和线性瓶颈（Linear Bottlenecks），在保持较高准确率的同时大幅减少了参数量和计算量。

在医疗场景中，MobileNetV2的优势在于：

可以在资源受限的设备（如基层医院的普通电脑）上运行
推理速度快，适合实时筛查
模型体积小，便于部署和更新

VGG16

VGGNet是2014年ImageNet竞赛的亚军模型，以其简洁优雅的结构著称。VGG16采用连续的小卷积核（3x3）堆叠，通过增加深度提升特征提取能力。虽然VGG16在参数量和计算量上不如后来的模型高效，但其结构直观、易于理解和修改，至今仍是教学和研究中的常用基准。

章节 06

数据来源

本项目使用的数据集包含两部分：

1. 胸部X光影像

X光影像来自公开的结核病数据集（如Shenzhen或Montgomery数据集，或类似的公开医疗影像数据集）。这些影像经过以下预处理：

尺寸归一化：统一调整为模型输入尺寸（如224x224或299x299）
灰度/彩色转换：根据模型要求转换为3通道彩色图像或保持单通道灰度
归一化：像素值归一化到[0,1]或[-1,1]范围
数据增强：训练时应用随机旋转、翻转、缩放、亮度调整等增强，提高模型泛化能力

2. 表格临床数据

表格数据包含患者的临床信息，可能包括：

人口统计学信息：年龄、性别
症状：咳嗽、发热、盗汗、体重减轻等
病史：既往结核病史、接触史、HIV状态等
实验室指标：血常规、炎症标志物等（如有）

表格数据经过以下预处理：

缺失值处理：填充或删除缺失数据
类别编码：将类别变量转换为数值（如独热编码、标签编码）
数值归一化：将数值特征缩放到统一范围
特征选择：根据相关性或领域知识选择最相关的特征

章节 07

数据划分策略

本项目采用5折交叉验证（5-Fold Cross-Validation），这是一种稳健的性能评估方法：

将整个数据集随机划分为5个子集（fold）
每次使用4个子集作为训练集，1个子集作为验证集
重复5次，确保每个子集都作为验证集一次
最后取5次验证结果的平均值作为模型性能指标

交叉验证的优势在于：

更充分地利用数据（每个样本都参与训练和验证）
减少随机划分带来的方差
提供更可靠的性能估计

章节 08

单模态基线模型

首先，项目建立了仅使用X光影像的单模态基线模型：

输入：X光影像 (224x224x3)
    ↓
CNN骨干网络（ResNet50/MobileNetV2/VGG16）
    ↓
全局平均池化 / 全连接层
    ↓
分类层（2类：正常/结核）
    ↓
输出：Softmax概率

单模态模型用于验证CNN在结核病影像分类上的有效性，并为多模态融合提供对比基准。