章节 01
导读 / 主楼:vllm-swift:Apple Silicon上的高性能LLM推理引擎
vllm-swift是一个基于Swift和Metal的原生后端,为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销,通过纯Swift/Metal实现,在低并发场景下可实现高达2.4倍的吞吐量提升。
正文
vllm-swift是一个基于Swift和Metal的原生后端,为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销,通过纯Swift/Metal实现,在低并发场景下可实现高达2.4倍的吞吐量提升。
章节 01
vllm-swift是一个基于Swift和Metal的原生后端,为vLLM提供Apple Silicon上的高性能推理能力。它消除了Python在推理热路径中的开销,通过纯Swift/Metal实现,在低并发场景下可实现高达2.4倍的吞吐量提升。
章节 02
随着大语言模型(LLM)的快速发展,本地推理需求日益增长。Apple Silicon凭借其统一的内存架构和强大的神经网络引擎,成为本地LLM部署的热门平台。然而,传统的vLLM Metal后端仍然依赖Python和MLX框架,在推理热路径中存在显著的开销。vllm-swift项目应运而生,旨在通过纯Swift/Metal实现,彻底消除Python在推理过程中的性能瓶颈。
章节 03
vllm-swift采用分层架构设计,将Python完全移出推理热路径:
这种架构确保了前向传播完全在Swift/Metal中执行,Python仅用于编排工作,从而实现了显著的性能提升。
章节 04
根据官方基准测试,vllm-swift在低并发场景下表现尤为出色:
章节 05
| 并发数 | vllm-swift | vllm-metal (Python/MLX) | 提升倍数 |
|---|---|---|---|
| 单并发 | 340 tok/s | 142 tok/s | 2.4x |
| 8并发 | 1,512 tok/s | 1,170 tok/s | 1.3x |
| 32并发 | 2,862 tok/s | 2,457 tok/s | 1.16x |
| 64并发 | 3,383 tok/s | 3,017 tok/s | 1.12x |
章节 06
| 并发数 | vllm-swift | vllm-metal (Python/MLX) |
|---|---|---|
| 单并发 | 149 tok/s | 105 tok/s |
| 64并发 | 1,519 tok/s | 1,387 tok/s |
从数据可以看出,vllm-swift在低并发场景下的优势最为明显,这正是个人用户和中小规模部署的典型使用场景。
章节 07
vllm-swift集成了TurboQuant+技术,支持对KV缓存进行3-5倍的压缩,同时保持几乎无损的模型质量:
| 方案 | 压缩比 | 1K PPL | 32K PPL | 适用场景 |
|---|---|---|---|---|
| FP16 | 1.0x | 2.72 | 4.40 | 基准对照 |
| turbo4v2 | 3.2x | 3.22 | 3.72 | 质量与压缩平衡 |
| turbo3 | 4.6x | 3.95 | 3.89 | 最大压缩、长上下文 |
启用KV缓存压缩后,用户可以在Apple Silicon设备上运行更长的上下文窗口,而不会显著影响推理速度。
章节 08
vllm-swift提供了完整的OpenAI兼容API,包括: