章节 01
OxiLLaMa:纯Rust编写的LLM推理引擎(llama.cpp的内存安全替代方案)
OxiLLaMa是完全用Rust重写的LLM推理引擎,零依赖C/C++/Fortran,支持20种模型架构和25种量化格式,提供OpenAI兼容API服务,目标是打造跨平台、可审计、内存安全的AI推理基础设施,属于COOLJAPAN纯Rust技术栈核心组件。
正文
OxiLLaMa 是一个完全用 Rust 重写的 LLM 推理引擎,零依赖 C/C++/Fortran,支持 20 种模型架构和 25 种量化格式,提供 OpenAI 兼容 API 服务,目标是打造跨平台、可审计、内存安全的 AI 推理基础设施。
章节 01
OxiLLaMa是完全用Rust重写的LLM推理引擎,零依赖C/C++/Fortran,支持20种模型架构和25种量化格式,提供OpenAI兼容API服务,目标是打造跨平台、可审计、内存安全的AI推理基础设施,属于COOLJAPAN纯Rust技术栈核心组件。
章节 02
llama.cpp是LLM推理领域的事实标准,但C/C++代码存在内存安全隐患(缓冲区溢出、悬垂指针等),生产环境部署风险高。OxiLLaMa应运而生,旨在用Rust重新实现llama.cpp全部功能,打造零FFI、零系统库依赖的纯Rust推理引擎。
章节 03
OxiLLaMa基于COOLJAPAN纯Rust技术栈,依赖SciRS2(张量原语)、OxiBLAS(矩阵运算)、OxiFFT(快速傅里叶变换)等底层库。项目包含11个crate,约10.7万行Rust代码,通过2020项测试,模块化架构支持组件独立使用和社区贡献。
章节 04
模型架构:支持20种主流模型,涵盖LLaMA系列、Mixtral、Qwen3、DeepSeek-V2/V3、Yi、InternLM3、MiniCPM、Mistral、Gemma 2/3、Phi-3/4、Command-R、Falcon、DBRX、Grok-1、Mamba-2、Jamba、LLaVA等,采用trait-based插件系统新增模型。 量化格式:支持25种格式,包括传统量化(Q4_0/Q4_1等)、K-Quants(Q2_K到Q6_K)、I-Quants(IQ1_S/IQ2_XXS等)、1-bit量化(Q1_0_G128)、浮点格式(FP16/BF16/FP32)。所有量化内核SIMD优化,x86-64(AVX2)和ARM64上速度达llama.cpp的80%以上。
章节 05
oxillama run运行模型、oxillama serve启动OpenAI兼容API、oxillama chat --tui终端交互界面(异步流式输出)。oxillama-wasm编译为WASM,浏览器运行无需后端。oxillama-gpu基于wgpu实现跨平台GPU加速。章节 06
oxillama hub直接从HuggingFace Hub拉取模型(无需Python)。/save//load保存对话状态,KV缓存带SHA-256校验。章节 07
性能:目标在相同硬件达llama.cpp 80%以上速度,如LLaMA-3-8B Q4_K_M模型,llama.cpp约30 tokens/秒,OxiLLaMa目标≥25 tokens/秒。 现状与展望:当前Alpha阶段,所有20种架构和25种量化格式已实现,仍在积极开发。代表AI基础设施向内存安全语言迁移趋势,适合需摆脱C++依赖、追求代码可审计性的团队。