Zing 论坛

正文

Rapid-MLX:Apple Silicon上最快的本地AI推理引擎

Rapid-MLX是专为Apple Silicon打造的本地AI推理引擎,速度比Ollama快4.2倍,支持完整的工具调用功能,可作为OpenAI API的即插即用替代品,兼容Cursor、Claude Code等主流开发工具。

Rapid-MLXApple Silicon本地AI大语言模型MLX工具调用OpenAI APICursorClaude CodeOllama
发布时间 2026/04/29 02:43最近活动 2026/04/29 02:50预计阅读 4 分钟
Rapid-MLX:Apple Silicon上最快的本地AI推理引擎
1

章节 01

导读 / 主楼:Rapid-MLX:Apple Silicon上最快的本地AI推理引擎

Rapid-MLX是专为Apple Silicon打造的本地AI推理引擎,速度比Ollama快4.2倍,支持完整的工具调用功能,可作为OpenAI API的即插即用替代品,兼容Cursor、Claude Code等主流开发工具。

2

章节 02

为什么需要更快的本地推理

本地AI推理的需求正在快速增长。对于开发者来说,本地模型意味着:

  • 零网络延迟:无需等待云端响应,特别适合代码补全、实时对话等场景
  • 数据隐私保护:敏感代码和数据不会离开本地机器
  • 成本可控:没有按token计费的压力,可以尽情使用
  • 离线可用:在没有网络的环境下依然可以使用AI辅助

然而,速度一直是本地推理的瓶颈。缓慢的生成速度不仅影响体验,还会打断开发者的思维流。Rapid-MLX正是针对这一痛点,通过深度优化Apple Silicon的硬件特性,实现了突破性的性能提升。

3

章节 03

极致的性能表现

根据官方数据,Rapid-MLX在多项指标上领先同类产品:

  • 4.2倍速度提升:相比Ollama,token生成速度提升显著
  • 0.08秒首token延迟:缓存命中时,几乎瞬间开始响应
  • 100%工具调用支持:完整兼容函数调用功能,这是许多本地模型难以做到的

实际测试数据显示,在32GB内存的Mac Mini/Studio上运行Nemotron-Nano 30B模型,可以达到141 token/秒的速度,同时保持100%的工具调用成功率。这个速度已经足以支撑流畅的代码助手体验。

4

章节 04

广泛的模型支持

Rapid-MLX支持多种主流模型,并针对不同硬件配置给出了推荐:

入门级配置(16GB MacBook Air)

  • Qwen3.5-4B:160 token/秒,适合日常对话和简单编码任务

进阶配置(32GB+ Mac Mini/Studio)

  • Nemotron-Nano 30B:141 token/秒,30B参数规模下最快的本地选择
  • Qwen3.6-35B:95 token/秒,支持256个专家和262K上下文长度

专业配置(64GB+ Mac Studio/Pro)

  • Qwen3.5-35B:83 token/秒,智能与速度的最佳平衡
  • Qwen3.5-122B:57 token/秒,接近前沿模型的智能水平

这种分层推荐让用户可以根据自己的硬件条件选择最适合的模型,避免资源浪费或性能不足。

5

章节 05

OpenAI API兼容

Rapid-MLX最大的设计亮点是其OpenAI API兼容性。它实现了与OpenAI API相同的接口规范,这意味着:

  • 任何支持OpenAI API的应用都可以无缝切换
  • 只需修改base URL为本地地址即可
  • 无需API密钥,任意值都可以作为key

这种设计大大降低了迁移成本。用户不需要学习新的API,现有的代码和工具链可以继续使用。

6

章节 06

工具调用:本地模型的关键能力

工具调用(Tool Calling)是现代AI应用的核心能力,它允许模型调用外部函数、查询数据库、执行代码等。对于开发者工具来说,这是不可或缺的功能。

Rapid-MLX内置了17种工具解析器,支持包括Cursor、Claude Code、Aider在内的主流开发工具。更重要的是,它引入了MHI(Model-Harness Integration)指标来量化模型与工具框架的集成质量。

MHI综合考虑三个维度:

  • 工具调用成功率(50%权重):模型能否正确生成函数调用
  • HumanEval得分(30%权重):模型的代码生成能力
  • MMLU得分(20%权重):模型在工具调用时是否保持了基础推理能力

根据MHI评分,Qwopus 27B模型在多个框架中都达到了92分的高分,实现了100%的工具调用成功率。这为本地运行智能体应用提供了可靠保障。

7

章节 07

快速上手指南

安装Rapid-MLX非常简单,推荐使用Homebrew:

brew install raullenchai/rapid-mlx/rapid-mlx

或者使用pip(需要Python 3.10+):

pip install rapid-mlx

安装完成后,启动模型服务:

rapid-mlx serve gemma-4-26b

首次运行会自动下载模型(约14GB),之后即可通过localhost:8000访问API。

测试服务是否正常运行:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'
8

章节 08

与主流工具集成

Rapid-MLX的设计理念是成为"即插即用"的本地AI后端。以下是几个常见工具的集成方式: