正文

多模态垃圾分类模型：融合图像与文本信息的PyTorch实现

一个基于PyTorch的多模态神经网络项目，结合ResNet-18图像特征与文件名文本嵌入，实现四类垃圾的智能分类，验证准确率约85%。

PyTorch多模态学习图像分类ResNet迁移学习垃圾分类深度学习计算机视觉

发布时间 2026/04/07 06:42最近活动 2026/04/07 15:06预计阅读 3 分钟

章节 01

导读 / 主楼：多模态垃圾分类模型：融合图像与文本信息的PyTorch实现

一个基于PyTorch的多模态神经网络项目，结合ResNet-18图像特征与文件名文本嵌入，实现四类垃圾的智能分类，验证准确率约85%。

章节 02

随着环保意识的提升和城市管理的精细化，垃圾分类已成为现代社会的刚需。传统的垃圾分类依赖人工识别，效率低下且容易出错。计算机视觉技术为这一问题提供了自动化解决方案，但纯图像方法在面对外观相似但材质不同的物品时往往表现不佳。

多模态学习——同时利用视觉和文本信息——为提升分类准确性提供了新思路。例如，一个物品的外观可能像塑料，但如果它的文件名包含玻璃相关信息，系统就能做出更准确的判断。

章节 03

本项目的目标是构建一个能够自动识别垃圾物品并分类到正确处置类别的系统。四个分类类别分别是：

技术实现上，项目采用多模态融合策略，同时处理图像和文本两种输入模态，通过神经网络学习它们的联合表示。

章节 04

项目的神经网络架构由三个核心组件构成：

图像分支：使用预训练的ResNet-18作为骨干网络。ResNet-18是一个经典的卷积神经网络，在ImageNet上预训练后能够提取丰富的视觉特征。通过迁移学习，项目利用这些预训练权重来加速收敛并提升小数据集上的性能。

文本分支：采用字符级嵌入处理文件名文本。原始文件名中的下划线被替换为空格，形成可读的文本描述。字符级嵌入能够捕捉文件名中的关键词信息，如材质、品牌、用途等。

融合层：将图像分支和文本分支提取的特征向量拼接（concatenate），然后通过全连接层进行分类。这种早期融合策略允许网络学习两种模态之间的交互关系。

最终输出是一个四类的softmax概率分布，表示输入物品属于每个类别的置信度。

章节 05

数据集按四类组织在四个文件夹中：Black、Blue、Green、Other。每个图像包含一个独立的垃圾物品。

文本模态的获取方式颇具创意：直接从图像文件名提取信息，将下划线替换为空格后作为文本输入。这种方法无需额外的标注工作，充分利用了已有的文件名信息。

支持的图像格式包括jpg、jpeg和png。项目遵循学术诚信要求，数据集本身不包含在仓库中。

章节 06

项目代码组织清晰，各模块职责明确：

dataset.py：实现多模态数据集类，负责同时加载图像和对应的文件名文本，进行必要的预处理和数据增强。

model.py：定义多模态神经网络架构，包括图像分支、文本分支、融合层和分类头的完整实现。

train.py：训练脚本，支持命令行参数配置数据目录、训练轮数、批次大小等超参数。自动保存验证准确率最高的模型检查点。

evaluate.py：评估脚本，计算准确率、精确率、召回率、F1分数等分类指标，生成混淆矩阵。

results.ipynb：Jupyter笔记本，包含预测结果可视化、错误分类案例分析等，满足课程作业的交付要求。

章节 07

训练模型非常简单：

python src/train.py --data_dir dataset --epochs 10 --batch_size 16

最佳模型会根据验证准确率自动保存到checkpoints/best.pt。

评估阶段运行：

python src/evaluate.py --data_dir dataset --ckpt checkpoints/best.pt

评估输出包括完整的分类报告和混淆矩阵，帮助理解模型在各类别上的表现差异。

章节 08

项目在验证集上达到了约85%的准确率。从类别表现来看：

绿色和蓝色类别表现强劲，这可能是因为这两类垃圾的特征相对明显，如绿色类别的有机垃圾通常有独特的颜色和纹理，蓝色类别的可回收物（如塑料瓶、纸张）有较为统一的外观。
黑色与其他类别之间存在一定混淆。分析表明，某些一般垃圾和特殊垃圾在外观上确实难以区分，特别是当它们材质相似但处置要求不同时。

错误分析部分通过可视化错误分类案例，帮助识别模型的薄弱环节。这些分析为进一步改进提供了方向，比如增加更多训练数据、调整类别权重、或引入更复杂的融合策略。