正文

cnn-from-scratch：用Rust从零实现卷积神经网络

cnn-from-scratch 是一个基于 Rust 的卷积神经网络从零实现项目，完整复现了 Zhifei Zhang 论文中的反向传播推导，为理解CNN底层原理和高性能深度学习系统开发提供了优质学习资源。

卷积神经网络CNNRust深度学习反向传播从零实现系统编程神经网络机器学习

发布时间 2026/05/03 00:14最近活动 2026/05/03 00:22预计阅读 10 分钟

cnn-from-scratch：用Rust从零实现卷积神经网络

1

章节 01

导读 / 主楼：cnn-from-scratch：用Rust从零实现卷积神经网络

cnn-from-scratch：用Rust从零实现卷积神经网络\n\n## 深度学习框架背后的黑箱\n\n当今的深度学习领域，PyTorch、TensorFlow、JAX等框架已经成为标准工具。这些框架提供了高度抽象的API，开发者只需几行代码就能构建和训练复杂的神经网络。这种便利性极大地推动了AI技术的普及和应用，但也带来了一个副作用：很多从业者对神经网络的底层原理知之甚少。\n\n当你调用 `model.backward()` 时，你知道背后发生了什么吗？梯度是如何在卷积层中传播的？参数是如何更新的？内存是如何管理的？对于大多数人来说，这些框架就像一个黑箱——输入数据，输出结果，中间过程被完美隐藏。\n\n这种抽象在应用开发中无可厚非，但对于希望深入理解深度学习、优化模型性能、甚至开发新架构的研究人员和工程师来说，了解底层实现是必不可少的。\n\n## 从零实现的价值：知其然，更要知其所以然\n\n从零实现神经网络（Neural Network from Scratch）是一种经典的学习方法。通过亲手编写每一层的前向传播和反向传播代码，开发者能够：\n\n理解数学原理：神经网络本质上是数学运算的组合——矩阵乘法、卷积、激活函数、损失计算。从零实现迫使你将公式转化为代码，加深对理论的理解。\n\n掌握优化技巧：当没有现成的优化器可用时，你必须理解学习率调度、动量、权重衰减等技术的实现细节。\n\n培养调试能力：框架隐藏了很多错误检查和边界处理。从零实现时，你会遇到各种数值稳定性问题、维度不匹配错误、梯度消失/爆炸等，解决这些问题的过程就是最好的学习。\n\n欣赏框架设计：当你自己实现过后，再看PyTorch或TensorFlow的源码，会对其设计决策有更深的理解和敬意。\n\n性能优化意识：理解底层计算过程后，你会对内存布局、计算图优化、并行化等性能话题更加敏感。\n\n## cnn-from-scratch 项目概述\n\nvlzsombor 开发的 cnn-from-scratch 项目是一个特别的从零实现——它不仅实现了卷积神经网络（CNN），而且是用 Rust 语言编写的，并且基于 Zhifei Zhang 的经典论文《Derivation of Backpropagation in Convolutional Neural Network》进行实现。\n\n这个项目的独特之处在于：\n\n- Rust语言：使用系统级编程语言实现深度学习，追求性能和安全性\n- CNN完整实现：涵盖卷积层、池化层、全连接层等CNN核心组件\n- 论文复现：严格遵循学术论文的数学推导，确保正确性\n- 从零开始：不依赖任何深度学习库，完全手写\n\n## 为什么选择 Rust？\n\nRust 是一门相对年轻的系统级编程语言，近年来在基础设施领域（如操作系统、数据库、区块链）获得了广泛关注。用 Rust 实现深度学习是一个有趣且富有挑战的选择。\n\n### Rust 的优势\n\n内存安全：Rust 的所有权系统（Ownership System）在编译期就防止了空指针、数据竞争、内存泄漏等常见问题。这对于数值计算密集型应用尤为重要，因为这类bug往往难以调试。\n\n零成本抽象：Rust 承诺"你不需要为不使用的东西付费"。高级抽象（如迭代器、闭包）在编译后会优化为高效的机器码，不会带来运行时开销。\n\n并发性能：Rust 的所有权模型天然支持安全的并发编程。在多核CPU上并行训练神经网络时，Rust 可以提供更好的性能和安全性保证。\n\n生态系统成长：虽然 Rust 的深度学习生态不如 Python 成熟，但正在快速发展。诸如 `ndarray`、`tch-rs`（PyTorch Rust 绑定）、`candle` 等库正在填补生态空白。\n\n### Rust 的挑战\n\n学习曲线陡峭：Rust 的所有权、生命周期、借用检查器等概念对新手来说较难掌握。\n\n生态相对稚嫩：相比 Python 丰富的 ML 生态，Rust 的相关库还较少，很多工具需要自己实现。\n\n开发速度：Rust 的严格类型系统和编译期检查意味着更多的代码和更长的编译时间，迭代速度可能慢于 Python。\n\n尽管如此，对于追求极致性能和安全性的场景（如生产环境的推理服务、嵌入式AI），Rust 是一个有吸引力的选择。\n\n## CNN 核心组件的实现解析\n\n### 卷积层（Convolutional Layer）\n\n卷积是 CNN 的核心操作，负责从输入数据中提取空间特征。从零实现卷积层需要理解：\n\n卷积运算的数学定义：对于输入特征图 $X$、卷积核 $K$、输出特征图 $Y$，卷积操作可以表示为：\n\n$$Y[i,j] = \sum_{m}\sum_{n} X[i+m, j+n] \cdot K[m,n] + b$$\n\n实现时需要考虑：\n- 多通道输入（如RGB图像的3个通道）\n- 多个卷积核（每个核提取不同特征）\n- 步幅（Stride）和填充（Padding）处理\n- 高效的内存访问模式\n\n反向传播的推导：卷积层的反向传播涉及两个梯度计算：\n- 输入梯度（传递给前一层）\n- 权重梯度（用于更新卷积核参数）\n\n根据 Zhifei Zhang 的论文，这些梯度计算实际上也是卷积操作（或转置卷积），只是方向相反。理解这一点对于正确实现至关重要。\n\n### 池化层（Pooling Layer）\n\n池化层用于降低特征图的空间维度，减少计算量并提供一定程度的平移不变性。常见类型包括：\n\n最大池化（Max Pooling）：取局部区域的最大值\n- 前向传播：记录每个池化窗口的最大值位置\n- 反向传播：梯度只回传给最大值位置，其他位置梯度为零\n\n平均池化（Average Pooling）：取局部区域的平均值\n- 前向传播：计算窗口内所有值的平均\n- 反向传播：梯度均匀分配给窗口内所有位置\n\n实现时需要注意边界处理（当特征图尺寸不能被池化窗口整除时）和内存布局优化。\n\n### 激活函数\n\n激活函数引入非线性，使神经网络能够学习复杂模式。从零实现时需要关注数值稳定性：\n\nReLU（Rectified Linear Unit）：\n- 前向：$f(x) = \max(0, x)$\n- 反向：$f'(x) = 1$ if $x > 0$, else $0$\n- 实现简单，但需要注意死神经元问题\n\nSigmoid：\n- 前向：$f(x) = \frac{1}{1 + e^{-x}}$\n- 反向：$f'(x) = f(x)(1 - f(x))$\n- 数值稳定性：当 $x$ 很大或很小时，$e^{-x}$ 可能上溢或下溢\n\nSoftmax（用于分类输出）：\n- 数值稳定性技巧：减去最大值再取指数，避免上溢\n- 与交叉熵损失结合时，可以简化梯度计算\n\n### 全连接层（Fully Connected Layer）\n\n全连接层通常位于CNN的末端，负责将提取的特征映射到最终输出（如分类概率）。\n\n前向传播：矩阵乘法加上偏置\n$$Y = XW + b$$\n\n反向传播：\n- 权重梯度：$\frac{\partial L}{\partial W} = X^T \frac{\partial L}{\partial Y}$\n- 输入梯度：$\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y} W^T$\n- 偏置梯度：$\frac{\partial L}{\partial b} = \sum \frac{\partial L}{\partial Y}$\n\n实现时可以利用矩阵运算的优化库（如 BLAS）提升性能。\n\n### 损失函数\n\n交叉熵损失（Cross-Entropy Loss）：分类任务的标准选择\n- 衡量预测概率分布与真实标签的差异\n- 与 Softmax 结合时梯度计算有简化形式\n- 数值稳定性：避免直接计算对数 softmax\n\n均方误差（MSE）：回归任务的常用选择\n- 计算预测值与真实值的平方差\n- 梯度计算简单直接\n\n## 训练循环的实现\n\n一个完整的训练循环包括以下步骤：\n\n### 1. 数据加载与预处理\n\n- 读取图像数据并归一化\n- 数据增强（随机裁剪、翻转等）\n- 批量化（Batching）处理\n\n### 2. 前向传播\n\n- 按顺序通过每一层\n- 保存中间结果（用于反向传播）\n- 计算最终输出和损失\n\n### 3. 反向传播\n\n- 从损失函数开始计算梯度\n- 按相反顺序通过每一层\n- 使用链式法则累积梯度\n\n### 4. 参数更新\n\n- 使用优化算法（SGD、Adam等）更新权重\n- 应用正则化（L2、Dropout等）\n- 重置梯度（为下一轮准备）\n\n### 5. 评估与日志\n\n- 在验证集上评估模型性能\n- 记录损失和准确率\n- 保存最佳模型检查点\n\n## 从零实现中的常见陷阱\n\n### 数值稳定性问题\n\n- 梯度消失/爆炸：深层网络中梯度可能指数级衰减或增长\n - 解决：权重初始化（Xavier、He初始化）、批归一化、梯度裁剪\n\n- Softmax数值溢出：大指数值导致上溢\n - 解决：减去最大值技巧\n\n- 除零错误：学习率太小或梯度为零时\n - 解决：添加微小epsilon值\n\n### 维度不匹配\n\n- 卷积输出尺寸计算错误\n- 全连接层输入展平维度错误\n- 批处理维度处理不一致\n\n### 内存管理\n\n- 中间结果保存过多导致内存爆炸\n- 忘记释放不再需要的张量\n- 在 Rust 中尤其要注意所有权和生命周期\n\n### 梯度检查\n\n实现反向传播后，应该用数值梯度检查（Numerical Gradient Check）验证正确性：\n\n$$\frac{\partial L}{\partial \theta} \approx \frac{L(\theta + \epsilon) - L(\theta - \epsilon)}{2\epsilon}$$\n\n这是发现反向传播bug的最可靠方法。\n\n## 性能优化策略\n\n### 计算优化\n\n- 向量化：避免循环，使用矩阵运算\n- 内存布局：选择行优先或列优先以优化缓存命中\n- 并行化：利用多核CPU并行处理批次数据\n- 算法优化：使用快速卷积算法（如FFT-based卷积）\n\n### Rust特定的优化\n\n- 零拷贝：利用所有权系统避免不必要的数据复制\n- SIMD：使用单指令多数据指令加速向量运算\n- Unsafe代码：在关键路径谨慎使用unsafe代码获得极致性能\n- 编译优化：使用 release 模式和 LTO（链接时优化）\n\n## 学习路径建议\n\n对于希望从零实现CNN的学习者，建议遵循以下路径：\n\n### 阶段1：全连接网络\n\n先实现一个简单的多层感知机（MLP）：\n- 理解反向传播基础\n- 掌握矩阵运算\n- 熟悉训练流程\n\n### 阶段2：基础CNN\n\n添加卷积和池化层：\n- 实现2D卷积操作\n- 理解空间特征提取\n- 处理多通道数据\n\n### 阶段3：现代组件\n\n添加现代深度学习的关键组件：\n- 批归一化（Batch Normalization）\n- 残差连接（Residual Connection）\n- 更好的优化器（Adam、学习率调度）\n\n### 阶段4：性能优化\n\n将原型转化为高效实现：\n- 使用优化的线性代数库\n- 添加GPU支持（CUDA或OpenCL）\n- 实现自动微分\n\n## 与现有框架的关系\n\n从零实现CNN的目的不是替代 PyTorch 或 TensorFlow，而是：\n\n教育价值：帮助理解深度学习的基础原理\n\n研究价值：作为新想法的快速原型平台\n\n工程价值：理解框架的设计决策和优化策略\n\n定制需求：当标准框架无法满足特殊需求时，有能力自己实现\n\n完成从零实现后，你会对深度学习框架产生更深的敬意——它们处理了无数的细节和边界情况，提供了稳定的API和高效的实现，让研究者能够专注于算法创新而非工程细节。\n\n## 结语：回归本源的价值\n\n在深度学习框架日益强大和易用的今天，从零实现神经网络似乎是一种"倒退"。然而，正如学习编程时我们会从汇编或C语言开始，理解计算机的底层工作原理，学习深度学习时也有必要了解神经网络的底层实现。\n\ncnn-from-scratch 项目展示了这种"回归本源"的价值。通过用 Rust 从零构建CNN，开发者不仅掌握了卷积神经网络的数学原理和实现细节，还体验了系统级编程语言在数值计算领域的应用。\n\n对于有志于深入深度学习领域的学习者和从业者，强烈建议尝试类似的从零实现项目。这个过程可能会充满挫折——维度错误、梯度消失、数值溢出等问题会接踵而至。但正是解决这些问题的过程，将抽象的数学公式转化为真正的理解和能力。\n\n最终，当你再次使用 PyTorch 的 `nn.Conv2d` 时，你会知道背后发生了什么。这种"知其所以然"的自信，是任何框架教程都无法直接给予的。