章节 01
OpenInfer:纯Rust+CUDA构建的零依赖LLM推理引擎导读
OpenInfer是一个完全从零开始构建的LLM推理引擎,仅使用Rust和CUDA实现,不依赖PyTorch或任何模型框架运行时。项目追求极致精简与可控性,代码量约9600行Rust、2600行CUDA及1400行Triton内核代码,为研究者和工程师提供了理解LLM推理底层机制的纯净样本,同时具备生产级性能与OpenAI兼容API。
正文
OpenInfer 是一个完全从零开始构建的 LLM 推理引擎,仅用 Rust 和 CUDA 实现,不依赖 PyTorch 或任何模型框架运行时。
章节 01
OpenInfer是一个完全从零开始构建的LLM推理引擎,仅使用Rust和CUDA实现,不依赖PyTorch或任何模型框架运行时。项目追求极致精简与可控性,代码量约9600行Rust、2600行CUDA及1400行Triton内核代码,为研究者和工程师提供了理解LLM推理底层机制的纯净样本,同时具备生产级性能与OpenAI兼容API。
章节 02
大语言模型推理部署长期被PyTorch、TensorFlow等框架主导,虽功能强大但带来复杂依赖链与难以完全掌控的底层行为。OpenInfer选择了更具挑战性的路径:完全从零构建,仅用Rust和CUDA实现推理引擎,旨在深入理解推理栈每一层,探索Rust原生推理引擎的可能性边界。
章节 03
章节 04
性能数据(RTX5070Ti 16GB):Qwen3-4B TTFT14ms、TPOT11ms/tok、吞吐量91tok/s;Qwen3.5-4B TTFT22ms、TPOT11.8ms/tok、吞吐量85tok/s。支持模型:Qwen系列(3-4B/8B、3.5-4B)、DeepSeek系列(V2-Lite、V4-Flash)、Kimi K2-Instruct等,部分模型需功能标志与NCCL支持。
章节 05
章节 06
当前局限:部分模型(DeepSeek V4、Kimi K2)需特定功能标志与硬件配置;采样和logprob支持因模型而异;Windows支持较新需额外配置。未来展望:持续扩展模型支持、优化性能、改进跨平台兼容性,是值得关注的LLM推理底层技术方向。
章节 07
环境要求:Rust 2024版、CUDA Toolkit(nvcc、cuBLAS)、NVIDIA驱动R535+、Python3+Triton(仅构建时)。构建流程:1. 设置Python环境(uv venv安装torch);2. 下载模型(huggingface-cli);3. 配置环境变量(CUDA_HOME等);4. cargo run --release启动服务。