Zing 论坛

正文

vllm-swift:Apple Silicon上的高性能LLM推理引擎

vllm-swift是一个基于Swift和Metal的原生后端,为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销,通过纯Swift/Metal实现,在低并发场景下可实现高达2.4倍的吞吐量提升。

vLLMApple SiliconSwiftMetalLLM推理mlx-swiftKV缓存压缩本地部署
发布时间 2026/04/24 00:42最近活动 2026/04/24 00:51预计阅读 3 分钟
vllm-swift:Apple Silicon上的高性能LLM推理引擎
1

章节 01

导读 / 主楼:vllm-swift:Apple Silicon上的高性能LLM推理引擎

vllm-swift是一个基于Swift和Metal的原生后端,为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销,通过纯Swift/Metal实现,在低并发场景下可实现高达2.4倍的吞吐量提升。

2

章节 02

项目背景

随着大语言模型(LLM)的快速发展,本地推理需求日益增长。Apple Silicon凭借其统一的内存架构和强大的神经网络引擎,成为本地LLM部署的热门平台。然而,传统的vLLM Metal后端仍然依赖Python和MLX框架,在推理热路径中存在显著的开销。vllm-swift项目应运而生,旨在通过纯Swift/Metal实现,彻底消除Python在推理过程中的性能瓶颈。

3

章节 03

核心架构

vllm-swift采用分层架构设计,将Python完全移出推理热路径:

  • Python层:仅负责vLLM API、分词和调度协调
  • C桥接层:通过ctypes FFI实现Python与Swift的通信
  • Swift层:核心推理引擎,基于mlx-swift-lm实现
  • Metal GPU:底层计算加速

这种架构确保了前向传播完全在Swift/Metal中执行,Python仅用于编排工作,从而实现了显著的性能提升。

4

章节 04

性能优势

根据官方基准测试,vllm-swift在低并发场景下表现尤为出色:

5

章节 05

短上下文解码性能(Prompt=18 tokens, Generation=50 tokens)

并发数 vllm-swift vllm-metal (Python/MLX) 提升倍数
单并发 340 tok/s 142 tok/s 2.4x
8并发 1,512 tok/s 1,170 tok/s 1.3x
32并发 2,862 tok/s 2,457 tok/s 1.16x
64并发 3,383 tok/s 3,017 tok/s 1.12x
6

章节 06

长上下文解码性能

并发数 vllm-swift vllm-metal (Python/MLX)
单并发 149 tok/s 105 tok/s
64并发 1,519 tok/s 1,387 tok/s

从数据可以看出,vllm-swift在低并发场景下的优势最为明显,这正是个人用户和中小规模部署的典型使用场景。

7

章节 07

TurboQuant+ KV缓存压缩

vllm-swift集成了TurboQuant+技术,支持对KV缓存进行3-5倍的压缩,同时保持几乎无损的模型质量:

方案 压缩比 1K PPL 32K PPL 适用场景
FP16 1.0x 2.72 4.40 基准对照
turbo4v2 3.2x 3.22 3.72 质量与压缩平衡
turbo3 4.6x 3.95 3.89 最大压缩、长上下文

启用KV缓存压缩后,用户可以在Apple Silicon设备上运行更长的上下文窗口,而不会显著影响推理速度。

8

章节 08

主要特性

vllm-swift提供了完整的OpenAI兼容API,包括:

  • OpenAI兼容接口:支持/v1/completions和/v1/chat/completions端点
  • 流式响应:支持SSE流式输出
  • 聊天模板:自动应用模型特定的聊天模板
  • 批处理解码:通过BatchedKVCache实现完全批处理的投影和注意力计算
  • 温度采样:在批处理路径中支持每请求温度采样
  • 自动模型下载:支持从HuggingFace Hub自动下载模型
  • 工具调用:支持通过--enable-auto-tool-choice启用自动工具选择
  • VLM支持:实验性的视觉语言模型支持