正文

rMLX：专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端，支持广泛的量化格式和 KV 缓存优化，为 Apple Silicon 用户提供极致的本地大模型推理体验。

MLXRustApple Silicon量化推理本地大模型KV缓存优化多模态工具调用

发布时间 2026/06/08 03:44最近活动 2026/06/08 03:50预计阅读 3 分钟

章节 01

导读 / 主楼：rMLX：专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

rMLX 是一个零 Python 依赖、单二进制文件的 MLX 推理后端，支持广泛的量化格式和 KV 缓存优化，为 Apple Silicon 用户提供极致的本地大模型推理体验。

章节 02

原作者与来源

原作者/维护者: Pushkinist
来源平台: GitHub
原始标题: rMLX
原始链接: https://github.com/Pushkinist/rMLX
发布时间: 2026-06-07

章节 03

项目概述

rMLX 是一个用 Rust 编写的原生 MLX 推理和模型转换后端，专为 Apple Silicon 设计。它最大的特点是零 Python 运行时依赖——只需一个 cargo build --release 生成的二进制文件即可运行。这解决了传统 MLX 推理中 Python 虚拟环境管理复杂、启动缓慢的问题。

该项目支持目前最广泛的权重量化与 KV 缓存量化矩阵，包括一些其他 MLX 服务器尚未支持的旋转式 KV 量化家族（TurboQuant、IsoQuant、PlanarQuant、RotorQuant、ParoQuant）。

章节 04

文本生成与 API 兼容性

rMLX 提供 OpenAI 兼容的 /v1/chat/completions 和 /v1/completions 端点，以及 Anthropic 兼容接口。支持温度调节、top-k/p 采样、重复惩罚、思维预算（thinking-budget）以及约束解码（schema-guided decoding）。这意味着你可以直接将现有的 OpenAI 客户端代码迁移到本地运行的 rMLX 服务器，无需修改。

章节 05

多模态能力

图像输入: 支持 Gemma 4 SigLIP 视觉塔、Qwen3-VL-MoE 等视觉模型，可通过 image_url 内容部分传入图片（支持 data-URI、HTTP 链接、文件路径或 base64）
音频输入: 为支持音频的模型提供转录和翻译端点
嵌入向量: /v1/embeddings 端点，包括 jina-v4 的多模态（文本+图像）嵌入

章节 06

工具调用与函数调用

支持 OpenAI 的 tool_calls 和 Anthropic 的 tool_use，包括多轮对话、多种输出格式（Qwen XML、Hermes-JSON、Gemma）。这使得构建复杂的 Agent 系统成为可能。

章节 07

量化技术矩阵

rMLX 在量化支持上处于业界领先地位：

权重量化: 仿射 2-8 位、mxfp4/mxfp8、nvfp4、ParoQuant

KV 缓存量化: fp8、TurboQuant、RotorQuant、PlanarQuant、IsoQuant、分页 KV、混合/非对称 K/V，以及 SSD KV 层级

这种全面的量化支持意味着用户可以在保持推理质量的同时，大幅降低内存占用和提升推理速度。

章节 08

推测解码与性能优化

支持 MTP（多令牌预测）、DFlash 和 Eagle3 等推测解码草稿器，可以显著减少长文本生成的延迟。同时支持自动前缀缓存（prompt caching），通过块哈希技术避免重复计算。

rMLX：专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

导读 / 主楼：rMLX：专为 Apple Silicon 打造的 Rust 原生 MLX 推理引擎

原作者与来源

项目概述

文本生成与 API 兼容性

多模态能力

工具调用与函数调用

量化技术矩阵

推测解码与性能优化

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程