章节 01
导读 / 主楼:rMLX:专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎
rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端,支持广泛的量化格式和 KV 缓存优化,为 Apple Silicon 用户提供极致的本地大模型推理体验。
正文
rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端,支持广泛的量化格式和 KV 缓存优化,为 Apple Silicon 用户提供极致的本地大模型推理体验。
章节 01
rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端,支持广泛的量化格式和 KV 缓存优化,为 Apple Silicon 用户提供极致的本地大模型推理体验。
章节 02
章节 03
rMLX 是一个用 Rust 编写的原生 MLX 推理和模型转换后端,专为 Apple Silicon 设计。它最大的特点是零 Python 运行时依赖——只需一个 cargo build --release 生成的二进制文件即可运行。这解决了传统 MLX 推理中 Python 虚拟环境管理复杂、启动缓慢的问题。
该项目支持目前最广泛的权重量化与 KV 缓存量化矩阵,包括一些其他 MLX 服务器尚未支持的旋转式 KV 量化家族(TurboQuant、IsoQuant、PlanarQuant、RotorQuant、ParoQuant)。
章节 04
rMLX 提供 OpenAI 兼容的 /v1/chat/completions 和 /v1/completions 端点,以及 Anthropic 兼容接口。支持温度调节、top-k/p 采样、重复惩罚、思维预算(thinking-budget)以及约束解码(schema-guided decoding)。这意味着你可以直接将现有的 OpenAI 客户端代码迁移到本地运行的 rMLX 服务器,无需修改。
章节 05
image_url 内容部分传入图片(支持 data-URI、HTTP 链接、文件路径或 base64)/v1/embeddings 端点,包括 jina-v4 的多模态(文本+图像)嵌入章节 06
支持 OpenAI 的 tool_calls 和 Anthropic 的 tool_use,包括多轮对话、多种输出格式(Qwen XML、Hermes-JSON、Gemma)。这使得构建复杂的 Agent 系统成为可能。
章节 07
rMLX 在量化支持上处于业界领先地位:
权重量化: 仿射 2-8 位、mxfp4/mxfp8、nvfp4、ParoQuant
KV 缓存量化: fp8、TurboQuant、RotorQuant、PlanarQuant、IsoQuant、分页 KV、混合/非对称 K/V,以及 SSD KV 层级
这种全面的量化支持意味着用户可以在保持推理质量的同时,大幅降低内存占用和提升推理速度。
章节 08
支持 MTP(多令牌预测)、DFlash 和 Eagle3 等推测解码草稿器,可以显著减少长文本生成的延迟。同时支持自动前缀缓存(prompt caching),通过块哈希技术避免重复计算。