正文

OpenInfer：从零构建的纯 Rust CUDA 大模型推理引擎

OpenInfer 是一个完全从零开始构建的 LLM 推理引擎，仅用 Rust 和 CUDA 实现，不依赖 PyTorch 或任何模型框架运行时。

RustCUDALLM推理引擎PyTorchTritonQwenDeepSeekKimi开源

发布时间 2026/06/09 22:11最近活动 2026/06/09 22:24预计阅读 2 分钟

章节 01

OpenInfer：纯Rust+CUDA构建的零依赖LLM推理引擎导读

OpenInfer是一个完全从零开始构建的LLM推理引擎，仅使用Rust和CUDA实现，不依赖PyTorch或任何模型框架运行时。项目追求极致精简与可控性，代码量约9600行Rust、2600行CUDA及1400行Triton内核代码，为研究者和工程师提供了理解LLM推理底层机制的纯净样本，同时具备生产级性能与OpenAI兼容API。

章节 02

LLM推理部署的现状与OpenInfer的诞生背景

大语言模型推理部署长期被PyTorch、TensorFlow等框架主导，虽功能强大但带来复杂依赖链与难以完全掌控的底层行为。OpenInfer选择了更具挑战性的路径：完全从零构建，仅用Rust和CUDA实现推理引擎，旨在深入理解推理栈每一层，探索Rust原生推理引擎的可能性边界。

章节 03

OpenInfer的技术架构与核心特点

纯Rust+CUDA集成：利用Rust内存安全特性与CUDA并行计算能力，通过cudarc库实现无缝集成，兼顾安全性与原生性能；2. Triton AOT内核编译：构建阶段完成内核优化生成，运行时无需Python环境，简化部署；3. 模块化模型支持：各模型独立crate实现（如openinfer-qwen3-4b），便于添加新模型与针对性优化。

章节 04

OpenInfer的性能表现与支持模型

性能数据（RTX5070Ti 16GB）：Qwen3-4B TTFT14ms、TPOT11ms/tok、吞吐量91tok/s；Qwen3.5-4B TTFT22ms、TPOT11.8ms/tok、吞吐量85tok/s。支持模型：Qwen系列（3-4B/8B、3.5-4B）、DeepSeek系列（V2-Lite、V4-Flash）、Kimi K2-Instruct等，部分模型需功能标志与NCCL支持。

章节 05

OpenInfer的实际意义与应用场景

研究与教学：零框架抽象的代码库是理解LLM推理机制的绝佳教材；2. 生产环境优化：提供无外部框架的纯净环境，支持精确控制内存分配、计算图优化等；3. 边缘部署：运行时依赖极少，适合资源受限场景，部署包精简。

章节 06

OpenInfer的局限与未来展望

当前局限：部分模型（DeepSeek V4、Kimi K2）需特定功能标志与硬件配置；采样和logprob支持因模型而异；Windows支持较新需额外配置。未来展望：持续扩展模型支持、优化性能、改进跨平台兼容性，是值得关注的LLM推理底层技术方向。

章节 07

OpenInfer的构建与部署指南

环境要求：Rust 2024版、CUDA Toolkit（nvcc、cuBLAS）、NVIDIA驱动R535+、Python3+Triton（仅构建时）。构建流程：1. 设置Python环境（uv venv安装torch）；2. 下载模型（huggingface-cli）；3. 配置环境变量（CUDA_HOME等）；4. cargo run --release启动服务。