Zing 论坛

正文

OxiLLaMa:纯 Rust 编写的 LLM 推理引擎,llama.cpp 的内存安全替代方案

OxiLLaMa 是一个完全用 Rust 重写的 LLM 推理引擎,零依赖 C/C++/Fortran,支持 20 种模型架构和 25 种量化格式,提供 OpenAI 兼容 API 服务,目标是打造跨平台、可审计、内存安全的 AI 推理基础设施。

RustLLM推理引擎llama.cpp量化内存安全GGUF开源
发布时间 2026/04/25 15:13最近活动 2026/04/25 15:19预计阅读 3 分钟
OxiLLaMa:纯 Rust 编写的 LLM 推理引擎,llama.cpp 的内存安全替代方案
1

章节 01

OxiLLaMa:纯Rust编写的LLM推理引擎(llama.cpp的内存安全替代方案)

OxiLLaMa是完全用Rust重写的LLM推理引擎,零依赖C/C++/Fortran,支持20种模型架构和25种量化格式,提供OpenAI兼容API服务,目标是打造跨平台、可审计、内存安全的AI推理基础设施,属于COOLJAPAN纯Rust技术栈核心组件。

2

章节 02

背景:为何需要纯Rust的LLM推理引擎?

llama.cpp是LLM推理领域的事实标准,但C/C++代码存在内存安全隐患(缓冲区溢出、悬垂指针等),生产环境部署风险高。OxiLLaMa应运而生,旨在用Rust重新实现llama.cpp全部功能,打造零FFI、零系统库依赖的纯Rust推理引擎。

3

章节 03

项目架构与依赖

OxiLLaMa基于COOLJAPAN纯Rust技术栈,依赖SciRS2(张量原语)、OxiBLAS(矩阵运算)、OxiFFT(快速傅里叶变换)等底层库。项目包含11个crate,约10.7万行Rust代码,通过2020项测试,模块化架构支持组件独立使用和社区贡献。

4

章节 04

模型与量化格式支持

模型架构:支持20种主流模型,涵盖LLaMA系列、Mixtral、Qwen3、DeepSeek-V2/V3、Yi、InternLM3、MiniCPM、Mistral、Gemma 2/3、Phi-3/4、Command-R、Falcon、DBRX、Grok-1、Mamba-2、Jamba、LLaVA等,采用trait-based插件系统新增模型。 量化格式:支持25种格式,包括传统量化(Q4_0/Q4_1等)、K-Quants(Q2_K到Q6_K)、I-Quants(IQ1_S/IQ2_XXS等)、1-bit量化(Q1_0_G128)、浮点格式(FP16/BF16/FP32)。所有量化内核SIMD优化,x86-64(AVX2)和ARM64上速度达llama.cpp的80%以上。

5

章节 05

多场景部署模式

  • 命令行工具oxillama run运行模型、oxillama serve启动OpenAI兼容API、oxillama chat --tui终端交互界面(异步流式输出)。
  • Python绑定:通过PyO3提供API,方便集成现有工作流。
  • WebAssemblyoxillama-wasm编译为WASM,浏览器运行无需后端。
  • GPU加速:可选oxillama-gpu基于wgpu实现跨平台GPU加速。
6

章节 06

企业级特性

  • 可观测性:内置监控和日志系统。
  • 错误恢复:推理失败返回可处理错误,不panic。
  • 配置管理:支持复杂运行时配置。
  • 模型管理oxillama hub直接从HuggingFace Hub拉取模型(无需Python)。
  • 对话持久化/save//load保存对话状态,KV缓存带SHA-256校验。
7

章节 07

性能目标与未来展望

性能:目标在相同硬件达llama.cpp 80%以上速度,如LLaMA-3-8B Q4_K_M模型,llama.cpp约30 tokens/秒,OxiLLaMa目标≥25 tokens/秒。 现状与展望:当前Alpha阶段,所有20种架构和25种量化格式已实现,仍在积极开发。代表AI基础设施向内存安全语言迁移趋势,适合需摆脱C++依赖、追求代码可审计性的团队。