Zing 论坛

正文

OpenInfer:从零构建的纯 Rust CUDA 大模型推理引擎

OpenInfer 是一个完全从零开始构建的 LLM 推理引擎,仅用 Rust 和 CUDA 实现,不依赖 PyTorch 或任何模型框架运行时。

RustCUDALLM推理引擎PyTorchTritonQwenDeepSeekKimi开源
发布时间 2026/06/09 22:11最近活动 2026/06/09 22:24预计阅读 2 分钟
OpenInfer:从零构建的纯 Rust CUDA 大模型推理引擎
1

章节 01

OpenInfer:纯Rust+CUDA构建的零依赖LLM推理引擎导读

OpenInfer是一个完全从零开始构建的LLM推理引擎,仅使用Rust和CUDA实现,不依赖PyTorch或任何模型框架运行时。项目追求极致精简与可控性,代码量约9600行Rust、2600行CUDA及1400行Triton内核代码,为研究者和工程师提供了理解LLM推理底层机制的纯净样本,同时具备生产级性能与OpenAI兼容API。

2

章节 02

LLM推理部署的现状与OpenInfer的诞生背景

大语言模型推理部署长期被PyTorch、TensorFlow等框架主导,虽功能强大但带来复杂依赖链与难以完全掌控的底层行为。OpenInfer选择了更具挑战性的路径:完全从零构建,仅用Rust和CUDA实现推理引擎,旨在深入理解推理栈每一层,探索Rust原生推理引擎的可能性边界。

3

章节 03

OpenInfer的技术架构与核心特点

  1. 纯Rust+CUDA集成:利用Rust内存安全特性与CUDA并行计算能力,通过cudarc库实现无缝集成,兼顾安全性与原生性能;2. Triton AOT内核编译:构建阶段完成内核优化生成,运行时无需Python环境,简化部署;3. 模块化模型支持:各模型独立crate实现(如openinfer-qwen3-4b),便于添加新模型与针对性优化。
4

章节 04

OpenInfer的性能表现与支持模型

性能数据(RTX5070Ti 16GB):Qwen3-4B TTFT14ms、TPOT11ms/tok、吞吐量91tok/s;Qwen3.5-4B TTFT22ms、TPOT11.8ms/tok、吞吐量85tok/s。支持模型:Qwen系列(3-4B/8B、3.5-4B)、DeepSeek系列(V2-Lite、V4-Flash)、Kimi K2-Instruct等,部分模型需功能标志与NCCL支持。

5

章节 05

OpenInfer的实际意义与应用场景

  1. 研究与教学:零框架抽象的代码库是理解LLM推理机制的绝佳教材;2. 生产环境优化:提供无外部框架的纯净环境,支持精确控制内存分配、计算图优化等;3. 边缘部署:运行时依赖极少,适合资源受限场景,部署包精简。
6

章节 06

OpenInfer的局限与未来展望

当前局限:部分模型(DeepSeek V4、Kimi K2)需特定功能标志与硬件配置;采样和logprob支持因模型而异;Windows支持较新需额外配置。未来展望:持续扩展模型支持、优化性能、改进跨平台兼容性,是值得关注的LLM推理底层技术方向。

7

章节 07

OpenInfer的构建与部署指南

环境要求:Rust 2024版、CUDA Toolkit(nvcc、cuBLAS)、NVIDIA驱动R535+、Python3+Triton(仅构建时)。构建流程:1. 设置Python环境(uv venv安装torch);2. 下载模型(huggingface-cli);3. 配置环境变量(CUDA_HOME等);4. cargo run --release启动服务。