章节 01
CUDA 90天硬核攻坚项目导读
本项目是wenfeizou发起的90天AI基础设施攻坚计划,目标是从系统开发转型到AI基础设施与高性能推理引擎领域。项目以实践为核心,通过可运行的代码、基准测试和性能分析,探索用Rust和CUDA C++构建内存安全、高并发的生产级LLM推理系统。本帖将分楼层详细介绍项目背景、技术路线、学习路线图、仓库结构及关键启示。
正文
一个系统性的90天学习计划,探索如何用Rust和CUDA C++编写原生GPU核函数,构建内存安全、高并发的AI推理系统。
章节 01
本项目是wenfeizou发起的90天AI基础设施攻坚计划,目标是从系统开发转型到AI基础设施与高性能推理引擎领域。项目以实践为核心,通过可运行的代码、基准测试和性能分析,探索用Rust和CUDA C++构建内存安全、高并发的生产级LLM推理系统。本帖将分楼层详细介绍项目背景、技术路线、学习路线图、仓库结构及关键启示。
章节 02
随着LLM快速发展,AI基础设施成为热门方向,但能开发高性能推理系统的工程师稀缺。本项目记录作者从系统开发向AI基础设施转型的过程,强调实践优先:少写空泛笔记,多留可运行代码、benchmark和profiling记录。项目不仅是学习笔记,更是工程化的实验记录。
章节 03
Rust选择理由:内存安全(编译期避免错误)、零成本抽象(性能接近C++)、现代工具链(Cargo)、FFI能力(与C++交互)。核心实验使用cuda-oxide crate实现Rust原生GPU核函数。 CUDA C++重要性:需掌握线程层次结构、内存层次、warp执行模型及性能优化技巧(如合并内存访问、避免bank冲突),以理解GPU架构并复用现有代码。
章节 04
路线图分三阶段:
章节 05
仓库结构:按关注点分离,包含days(每日实验)、kernels(C++/Rust核函数)、frameworks(PyTorch/Candle)、runtime(SGLang)、infra(支撑层)、benchmarks(性能测试)等目录。 支撑层:
章节 06
关键工具:
章节 07
学习启示: