Zing 论坛

正文

CNN、ViT与CCT在数据稀缺场景下的对比研究:一个参数匹配的实证分析

本文介绍了一项来自博科尼大学的机器学习课程项目,该项目在控制参数数量的前提下,系统比较了卷积神经网络(CNN)、视觉Transformer(ViT)和紧凑型卷积Transformer(CCT)在CIFAR-10数据集上的性能表现,特别关注了不同数据量(10%-100%)和增强策略对模型性能的影响。

CNNViTCCT计算机视觉数据稀缺参数匹配CIFAR-10数据增强Transformer深度学习
发布时间 2026/05/29 00:43最近活动 2026/05/29 00:48预计阅读 4 分钟
CNN、ViT与CCT在数据稀缺场景下的对比研究:一个参数匹配的实证分析
1

章节 01

【导读】CNN、ViT与CCT在数据稀缺场景下的参数匹配对比研究核心概述

本研究由博科尼大学学生团队完成,旨在通过严格控制参数数量(约0.75M和5M两个量级),系统比较CNN、ViT和CCT三种架构在CIFAR-10数据集不同数据量(10%-100%)及增强策略下的性能。核心发现包括:低数据场景下CNN优势显著,ViT需充足数据才能发挥作用,CCT表现稳定;以及"低数据增强交叉"现象——CNN在低数据时从增强获益更多,ViT则在高数据时更受益。研究为不同数据场景下的架构选择提供了实用指南。

2

章节 02

研究背景与动机

计算机视觉领域中,CNN长期主导,但ViT凭借全局注意力崛起,却在数据稀缺时表现不佳;CCT作为混合架构试图结合两者优势。现有研究常忽略参数控制导致对比不公,本项目通过参数匹配,公平评估三种架构在数据稀缺场景下的表现,填补了这一研究空白。

3

章节 03

实验设计细节

数据集与划分

采用CIFAR-10(6万张32×32图像),设置10%/25%/50%/75%/100%数据比例模拟稀缺场景。

模型架构

  • CNN: ResNet风格,小版本0.76M参数,大版本4.90M
  • ViT: 经典架构,小版本0.76M,大版本4.98M
  • CCT: 卷积tokenizer,小版本0.73M,大版本5.26M

训练配置

统一使用AdamW优化器、线性预热+余弦退火LR、批次256、150 epoch等;对比有无增强(随机裁剪+水平翻转)策略。

4

章节 04

核心发现与实证证据

"低数据增强交叉"现象

  • 低数据(10%-25%):CNN从增强获益更多(如大模型10%数据时增强后准确率79.8%)
  • 高数据(75%-100%):ViT增强获益更明显(大模型100%数据时增强后85.8%)
  • CCT: 增强影响有限,表现稳定

性能对比结果(带增强)

大模型配置(~5M参数)

数据比例 CNN_large ViT_large CCT_large
10% 79.80% 54.40% 70.47%
25% 88.57% 68.28% 81.13%
50% 92.18% 77.53% 86.55%
75% 93.94% 82.43% 89.36%
100% 94.91% 85.80% 90.84%

小模型配置(~0.75M参数)

数据比例 CNN_small ViT_small CCT_small
10% 77.40% 53.73% 68.11%
25% 83.41% 65.52% 79.19%
50% 87.07% 74.08% 84.90%
75% 88.28% 79.58% 87.62%
100% 89.27% 82.60% 89.65%

深入分析

  • CKA: CNN与CCT浅层表征相似,ViT差异显著
  • 线性探测: CNN特征在低数据下迁移性更好
  • 平均注意力距离: CCT注意力更局部化,ViT全局注意力在低数据时易过度扩展
5

章节 05

实践意义与建议

架构选择指南

  1. 低数据(<25%): 优先CNN/CCT,避免纯ViT
  2. 中等数据(25%-75%): CCT是折中选择,对增强依赖小
  3. 高数据(>75%): 可根据推理速度/可解释性选择

数据增强反思

增强效果与架构特性相关:CNN/CCT(强归纳偏置)获益有限,ViT(无归纳偏置)在高数据时更受益。

混合架构价值

CCT验证了融合CNN局部提取与Transformer全局建模的优势,为未来架构设计提供思路。

6

章节 06

研究局限与未来方向

局限

  1. 仅用CIFAR-10(低分辨率),未覆盖高分辨率数据集
  2. 仅图像分类任务,未涉及检测/分割等复杂任务
  3. 增强策略单一(仅随机裁剪+翻转)

未来方向

  1. 扩展至ImageNet等大规模数据集
  2. 纳入更多混合架构(如CoAtNet)
  3. 探索自监督预训练场景
  4. 理论分析架构与增强响应的差异
7

章节 07

结论与资源

结论

本研究通过参数匹配实验,揭示了三种架构在数据稀缺场景的性能差异及"低数据增强交叉"现象,强调公平实验设计的重要性。

复现资源

项目开源:

  • 完整报告: ML#13_report.pdf
  • 代码/脚本: 训练脚本、分析笔记本
  • 预训练权重: 60个PyTorch检查点
  • 训练日志: JSON格式记录