正文

CUDA 90天硬核攻坚：用Rust和C++打造生产级LLM推理基础设施

一个系统性的90天学习计划，探索如何用Rust和CUDA C++编写原生GPU核函数，构建内存安全、高并发的AI推理系统。

CUDAGPU编程RustAI基础设施LLM推理高性能计算cuda-oxideSGLangCandlePyTorch

发布时间 2026/06/10 15:15最近活动 2026/06/10 15:23预计阅读 3 分钟

章节 01

CUDA 90天硬核攻坚项目导读

本项目是wenfeizou发起的90天AI基础设施攻坚计划，目标是从系统开发转型到AI基础设施与高性能推理引擎领域。项目以实践为核心，通过可运行的代码、基准测试和性能分析，探索用Rust和CUDA C++构建内存安全、高并发的生产级LLM推理系统。本帖将分楼层详细介绍项目背景、技术路线、学习路线图、仓库结构及关键启示。

章节 02

项目背景：从系统开发到AI基础设施的转型

随着LLM快速发展，AI基础设施成为热门方向，但能开发高性能推理系统的工程师稀缺。本项目记录作者从系统开发向AI基础设施转型的过程，强调实践优先：少写空泛笔记，多留可运行代码、benchmark和profiling记录。项目不仅是学习笔记，更是工程化的实验记录。

章节 03

核心技术路线：Rust + CUDA C++双轨并行

Rust选择理由：内存安全（编译期避免错误）、零成本抽象（性能接近C++）、现代工具链（Cargo）、FFI能力（与C++交互）。核心实验使用cuda-oxide crate实现Rust原生GPU核函数。 CUDA C++重要性：需掌握线程层次结构、内存层次、warp执行模型及性能优化技巧（如合并内存访问、避免bank冲突），以理解GPU架构并复用现有代码。

章节 04

90天路线图：从内核到全链路闭环

路线图分三阶段：

CUDA Kernel基础：向量加法、矩阵乘法、内存优化（shared memory/合并访问）、规约算法、卷积操作。
Rust GPU编程：cuda-oxide基础、GPU内存管理、Rust与C++ CUDA互操作、异步执行（async/await+CUDA流）。
LLM推理基础设施：Transformer算子优化、KV Cache管理、动态批处理调度、分布式推理架构。

章节 05

仓库结构与支撑能力层解析

仓库结构：按关注点分离，包含days（每日实验）、kernels（C++/Rust核函数）、frameworks（PyTorch/Candle）、runtime（SGLang）、infra（支撑层）、benchmarks（性能测试）等目录。 支撑层：

Linux：驱动安装、Nsight工具、动态库管理、性能观察。
C++：CMake构建、内存模型、模板编程、Host/Device代码组织。
Rust：unsafe代码、所有权管理、FFI、异步运行时。
Python：PyTorch基线验证、数据生成、正确性检查。

章节 06

关键工具与实验环境配置

关键工具：

SGLang：高性能推理运行时，特性包括结构化生成、RadixAttention、请求调度；学习价值为掌握serving系统设计、KV Cache管理等。
PyTorch：作为正确性验证基线、性能对照，学习CUDA Extension及编译器技术。
Candle：Hugging Face的Rust原生框架，学习张量操作、模型加载、CUDA后端集成。 实验环境：Ubuntu26.04 LTS、CUDA13.3、Rust1.98+，工具包括Nsight Systems/Compute。

章节 07

学习启示与项目总结

学习启示：

实践优先：动手写代码、跑实验、做分析，通过benchmark和profiling理解性能。
系统思维：需掌握全栈知识，关注性能、工程质量及持续学习。
Rust潜力：内存安全、高性能、并发支持，结合candle等框架在AI infra领域前景广阔。总结：项目提供清晰路线图、工程化学习方法及完整技术栈，对AI基础设施学习者极具价值。建议关注项目，跟随攻坚之旅探索Rust与CUDA的可能性。