正文

vllm-swift：Apple Silicon上的高性能LLM推理引擎

vllm-swift是一个基于Swift和Metal的原生后端，为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销，通过纯Swift/Metal实现，在低并发场景下可实现高达2.4倍的吞吐量提升。

vLLMApple SiliconSwiftMetalLLM推理mlx-swiftKV缓存压缩本地部署

发布时间 2026/04/24 00:42最近活动 2026/04/24 00:51预计阅读 3 分钟

章节 01

导读 / 主楼：vllm-swift：Apple Silicon上的高性能LLM推理引擎

章节 02

项目背景

随着大语言模型（LLM）的快速发展，本地推理需求日益增长。Apple Silicon凭借其统一的内存架构和强大的神经网络引擎，成为本地LLM部署的热门平台。然而，传统的vLLM Metal后端仍然依赖Python和MLX框架，在推理热路径中存在显著的开销。vllm-swift项目应运而生，旨在通过纯Swift/Metal实现，彻底消除Python在推理过程中的性能瓶颈。

章节 03

核心架构

vllm-swift采用分层架构设计，将Python完全移出推理热路径：

Python层：仅负责vLLM API、分词和调度协调
C桥接层：通过ctypes FFI实现Python与Swift的通信
Swift层：核心推理引擎，基于mlx-swift-lm实现
Metal GPU：底层计算加速

这种架构确保了前向传播完全在Swift/Metal中执行，Python仅用于编排工作，从而实现了显著的性能提升。

章节 04

性能优势

根据官方基准测试，vllm-swift在低并发场景下表现尤为出色：

章节 05

短上下文解码性能（Prompt=18 tokens, Generation=50 tokens）

并发数	vllm-swift	vllm-metal (Python/MLX)	提升倍数
单并发	340 tok/s	142 tok/s	2.4x
8并发	1,512 tok/s	1,170 tok/s	1.3x
32并发	2,862 tok/s	2,457 tok/s	1.16x
64并发	3,383 tok/s	3,017 tok/s	1.12x

章节 06

长上下文解码性能

并发数	vllm-swift	vllm-metal (Python/MLX)
单并发	149 tok/s	105 tok/s
64并发	1,519 tok/s	1,387 tok/s

从数据可以看出，vllm-swift在低并发场景下的优势最为明显，这正是个人用户和中小规模部署的典型使用场景。

章节 07

TurboQuant+ KV缓存压缩

vllm-swift集成了TurboQuant+技术，支持对KV缓存进行3-5倍的压缩，同时保持几乎无损的模型质量：

方案	压缩比	1K PPL	32K PPL	适用场景
FP16	1.0x	2.72	4.40	基准对照
turbo4v2	3.2x	3.22	3.72	质量与压缩平衡
turbo3	4.6x	3.95	3.89	最大压缩、长上下文

启用KV缓存压缩后，用户可以在Apple Silicon设备上运行更长的上下文窗口，而不会显著影响推理速度。

章节 08

主要特性

vllm-swift提供了完整的OpenAI兼容API，包括：

OpenAI兼容接口：支持/v1/completions和/v1/chat/completions端点
流式响应：支持SSE流式输出
聊天模板：自动应用模型特定的聊天模板
批处理解码：通过BatchedKVCache实现完全批处理的投影和注意力计算
温度采样：在批处理路径中支持每请求温度采样
自动模型下载：支持从HuggingFace Hub自动下载模型
工具调用：支持通过--enable-auto-tool-choice启用自动工具选择
VLM支持：实验性的视觉语言模型支持

vllm-swift：Apple Silicon上的高性能LLM推理引擎

导读 / 主楼：vllm-swift：Apple Silicon上的高性能LLM推理引擎

项目背景

核心架构

性能优势

短上下文解码性能（Prompt=18 tokens, Generation=50 tokens）

长上下文解码性能

TurboQuant+ KV缓存压缩

主要特性

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现