Zing 论坛

正文

rMLX:专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端,支持广泛的量化格式和 KV 缓存优化,为 Apple Silicon 用户提供极致的本地大模型推理体验。

MLXRustApple Silicon量化推理本地大模型KV缓存优化多模态工具调用
发布时间 2026/06/08 03:44最近活动 2026/06/08 03:50预计阅读 3 分钟
rMLX:专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎
1

章节 01

导读 / 主楼:rMLX:专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端,支持广泛的量化格式和 KV 缓存优化,为 Apple Silicon 用户提供极致的本地大模型推理体验。

2

章节 02

原作者与来源

3

章节 03

项目概述

rMLX 是一个用 Rust 编写的原生 MLX 推理和模型转换后端,专为 Apple Silicon 设计。它最大的特点是零 Python 运行时依赖——只需一个 cargo build --release 生成的二进制文件即可运行。这解决了传统 MLX 推理中 Python 虚拟环境管理复杂、启动缓慢的问题。

该项目支持目前最广泛的权重量化与 KV 缓存量化矩阵,包括一些其他 MLX 服务器尚未支持的旋转式 KV 量化家族(TurboQuant、IsoQuant、PlanarQuant、RotorQuant、ParoQuant)。

4

章节 04

文本生成与 API 兼容性

rMLX 提供 OpenAI 兼容的 /v1/chat/completions/v1/completions 端点,以及 Anthropic 兼容接口。支持温度调节、top-k/p 采样、重复惩罚、思维预算(thinking-budget)以及约束解码(schema-guided decoding)。这意味着你可以直接将现有的 OpenAI 客户端代码迁移到本地运行的 rMLX 服务器,无需修改。

5

章节 05

多模态能力

  • 图像输入: 支持 Gemma 4 SigLIP 视觉塔、Qwen3-VL-MoE 等视觉模型,可通过 image_url 内容部分传入图片(支持 data-URI、HTTP 链接、文件路径或 base64)
  • 音频输入: 为支持音频的模型提供转录和翻译端点
  • 嵌入向量: /v1/embeddings 端点,包括 jina-v4 的多模态(文本+图像)嵌入
6

章节 06

工具调用与函数调用

支持 OpenAI 的 tool_calls 和 Anthropic 的 tool_use,包括多轮对话、多种输出格式(Qwen XML、Hermes-JSON、Gemma)。这使得构建复杂的 Agent 系统成为可能。

7

章节 07

量化技术矩阵

rMLX 在量化支持上处于业界领先地位:

权重量化: 仿射 2-8 位、mxfp4/mxfp8、nvfp4、ParoQuant

KV 缓存量化: fp8、TurboQuant、RotorQuant、PlanarQuant、IsoQuant、分页 KV、混合/非对称 K/V,以及 SSD KV 层级

这种全面的量化支持意味着用户可以在保持推理质量的同时,大幅降低内存占用和提升推理速度。

8

章节 08

推测解码与性能优化

支持 MTP(多令牌预测)、DFlash 和 Eagle3 等推测解码草稿器,可以显著减少长文本生成的延迟。同时支持自动前缀缓存(prompt caching),通过块哈希技术避免重复计算。