正文

OxiLLaMa：纯 Rust 编写的 LLM 推理引擎，llama.cpp 的内存安全替代方案

OxiLLaMa 是一个完全用 Rust 重写的 LLM 推理引擎，零依赖 C/C++/Fortran，支持 20 种模型架构和 25 种量化格式，提供 OpenAI 兼容 API 服务，目标是打造跨平台、可审计、内存安全的 AI 推理基础设施。

RustLLM推理引擎llama.cpp量化内存安全GGUF开源

发布时间 2026/04/25 15:13最近活动 2026/04/25 15:19预计阅读 3 分钟

章节 01

OxiLLaMa：纯Rust编写的LLM推理引擎（llama.cpp的内存安全替代方案）

OxiLLaMa是完全用Rust重写的LLM推理引擎，零依赖C/C++/Fortran，支持20种模型架构和25种量化格式，提供OpenAI兼容API服务，目标是打造跨平台、可审计、内存安全的AI推理基础设施，属于COOLJAPAN纯Rust技术栈核心组件。

章节 02

背景：为何需要纯Rust的LLM推理引擎？

llama.cpp是LLM推理领域的事实标准，但C/C++代码存在内存安全隐患（缓冲区溢出、悬垂指针等），生产环境部署风险高。OxiLLaMa应运而生，旨在用Rust重新实现llama.cpp全部功能，打造零FFI、零系统库依赖的纯Rust推理引擎。

章节 03

项目架构与依赖

OxiLLaMa基于COOLJAPAN纯Rust技术栈，依赖SciRS2（张量原语）、OxiBLAS（矩阵运算）、OxiFFT（快速傅里叶变换）等底层库。项目包含11个crate，约10.7万行Rust代码，通过2020项测试，模块化架构支持组件独立使用和社区贡献。

章节 04

模型与量化格式支持

模型架构：支持20种主流模型，涵盖LLaMA系列、Mixtral、Qwen3、DeepSeek-V2/V3、Yi、InternLM3、MiniCPM、Mistral、Gemma 2/3、Phi-3/4、Command-R、Falcon、DBRX、Grok-1、Mamba-2、Jamba、LLaVA等，采用trait-based插件系统新增模型。 量化格式：支持25种格式，包括传统量化（Q4_0/Q4_1等）、K-Quants（Q2_K到Q6_K）、I-Quants（IQ1_S/IQ2_XXS等）、1-bit量化（Q1_0_G128）、浮点格式（FP16/BF16/FP32）。所有量化内核SIMD优化，x86-64（AVX2）和ARM64上速度达llama.cpp的80%以上。

章节 05

多场景部署模式

命令行工具：oxillama run运行模型、oxillama serve启动OpenAI兼容API、oxillama chat --tui终端交互界面（异步流式输出）。
Python绑定：通过PyO3提供API，方便集成现有工作流。
WebAssembly：oxillama-wasm编译为WASM，浏览器运行无需后端。
GPU加速：可选oxillama-gpu基于wgpu实现跨平台GPU加速。

章节 06

企业级特性

可观测性：内置监控和日志系统。
错误恢复：推理失败返回可处理错误，不panic。
配置管理：支持复杂运行时配置。
模型管理：oxillama hub直接从HuggingFace Hub拉取模型（无需Python）。
对话持久化：/save//load保存对话状态，KV缓存带SHA-256校验。

章节 07

性能目标与未来展望

性能：目标在相同硬件达llama.cpp 80%以上速度，如LLaMA-3-8B Q4_K_M模型，llama.cpp约30 tokens/秒，OxiLLaMa目标≥25 tokens/秒。 现状与展望：当前Alpha阶段，所有20种架构和25种量化格式已实现，仍在积极开发。代表AI基础设施向内存安全语言迁移趋势，适合需摆脱C++依赖、追求代码可审计性的团队。