正文

CNN、ViT与CCT在数据稀缺场景下的对比研究：一个参数匹配的实证分析

本文介绍了一项来自博科尼大学的机器学习课程项目，该项目在控制参数数量的前提下，系统比较了卷积神经网络（CNN）、视觉Transformer（ViT）和紧凑型卷积Transformer（CCT）在CIFAR-10数据集上的性能表现，特别关注了不同数据量（10%-100%）和增强策略对模型性能的影响。

CNNViTCCT计算机视觉数据稀缺参数匹配CIFAR-10数据增强Transformer深度学习

发布时间 2026/05/29 00:43最近活动 2026/05/29 00:48预计阅读 4 分钟

章节 01

【导读】CNN、ViT与CCT在数据稀缺场景下的参数匹配对比研究核心概述

本研究由博科尼大学学生团队完成，旨在通过严格控制参数数量（约0.75M和5M两个量级），系统比较CNN、ViT和CCT三种架构在CIFAR-10数据集不同数据量（10%-100%）及增强策略下的性能。核心发现包括：低数据场景下CNN优势显著，ViT需充足数据才能发挥作用，CCT表现稳定；以及"低数据增强交叉"现象——CNN在低数据时从增强获益更多，ViT则在高数据时更受益。研究为不同数据场景下的架构选择提供了实用指南。

章节 02

研究背景与动机

计算机视觉领域中，CNN长期主导，但ViT凭借全局注意力崛起，却在数据稀缺时表现不佳；CCT作为混合架构试图结合两者优势。现有研究常忽略参数控制导致对比不公，本项目通过参数匹配，公平评估三种架构在数据稀缺场景下的表现，填补了这一研究空白。

章节 03

实验设计细节

数据集与划分

采用CIFAR-10（6万张32×32图像），设置10%/25%/50%/75%/100%数据比例模拟稀缺场景。

模型架构

CNN: ResNet风格，小版本0.76M参数，大版本4.90M
ViT: 经典架构，小版本0.76M，大版本4.98M
CCT: 卷积tokenizer，小版本0.73M，大版本5.26M

训练配置

统一使用AdamW优化器、线性预热+余弦退火LR、批次256、150 epoch等；对比有无增强（随机裁剪+水平翻转）策略。

章节 04

核心发现与实证证据

"低数据增强交叉"现象

低数据（10%-25%）：CNN从增强获益更多（如大模型10%数据时增强后准确率79.8%）
高数据（75%-100%）：ViT增强获益更明显（大模型100%数据时增强后85.8%）
CCT: 增强影响有限，表现稳定

性能对比结果（带增强）

大模型配置（~5M参数）

数据比例	CNN_large	ViT_large	CCT_large
10%	79.80%	54.40%	70.47%
25%	88.57%	68.28%	81.13%
50%	92.18%	77.53%	86.55%
75%	93.94%	82.43%	89.36%
100%	94.91%	85.80%	90.84%

小模型配置（~0.75M参数）

数据比例	CNN_small	ViT_small	CCT_small
10%	77.40%	53.73%	68.11%
25%	83.41%	65.52%	79.19%
50%	87.07%	74.08%	84.90%
75%	88.28%	79.58%	87.62%
100%	89.27%	82.60%	89.65%

深入分析

CKA: CNN与CCT浅层表征相似，ViT差异显著
线性探测: CNN特征在低数据下迁移性更好
平均注意力距离: CCT注意力更局部化，ViT全局注意力在低数据时易过度扩展

章节 05

实践意义与建议

架构选择指南

低数据（<25%）: 优先CNN/CCT，避免纯ViT
中等数据（25%-75%）: CCT是折中选择，对增强依赖小
高数据（>75%）: 可根据推理速度/可解释性选择

数据增强反思

增强效果与架构特性相关：CNN/CCT（强归纳偏置）获益有限，ViT（无归纳偏置）在高数据时更受益。

混合架构价值

CCT验证了融合CNN局部提取与Transformer全局建模的优势，为未来架构设计提供思路。

章节 06

研究局限与未来方向

局限

仅用CIFAR-10（低分辨率），未覆盖高分辨率数据集
仅图像分类任务，未涉及检测/分割等复杂任务
增强策略单一（仅随机裁剪+翻转）

未来方向

扩展至ImageNet等大规模数据集
纳入更多混合架构（如CoAtNet）
探索自监督预训练场景
理论分析架构与增强响应的差异

章节 07

结论与资源

结论

本研究通过参数匹配实验，揭示了三种架构在数据稀缺场景的性能差异及"低数据增强交叉"现象，强调公平实验设计的重要性。

复现资源

项目开源：

完整报告: ML#13_report.pdf
代码/脚本: 训练脚本、分析笔记本
预训练权重: 60个PyTorch检查点
训练日志: JSON格式记录