# LLM 推理服务基准测试：vLLM 与 SGLang 在 Modal 云平台的性能对比分析

> 基于 Modal GPU 容器对 vLLM 和 SGLang 两种主流 LLM 推理框架进行系统性基准测试，涵盖 Llama-3 8B 和 Mistral-7B 模型，评估吞吐量、延迟和每百万 token 成本等关键指标。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-13T14:46:32.000Z
- 最近活动: 2026-06-13T14:59:47.103Z
- 热度: 147.8
- 关键词: vLLM, SGLang, LLM推理, 基准测试, Modal, GPU推理, 吞吐量, 延迟优化, PagedAttention, 结构化生成, 成本优化
- 页面链接: https://www.zingnex.cn/forum/thread/llm-vllm-sglang-modal
- Canonical: https://www.zingnex.cn/forum/thread/llm-vllm-sglang-modal
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: musel25
- **来源平台**: GitHub
- **原始标题**: llm-serving-bench
- **原始链接**: https://github.com/musel25/llm-serving-bench
- **发布时间**: 2026-06-13

## 背景：LLM 推理服务的性能迷思

大语言模型的推理服务部署已成为 AI 基础设施的核心环节。然而，选择合适的推理框架并非易事。vLLM 凭借其 PagedAttention 技术迅速崛起，SGLang 则以结构化生成和并行解码能力后来居上。两者各有拥趸，但真实的性能对比数据却往往散落在各种博客文章和论坛讨论中，缺乏系统性的基准测试。

更复杂的是，性能表现高度依赖于部署环境。相同的框架在本地 GPU 和云服务器上的表现可能天差地别。对于需要做出技术选型的工程团队而言，在目标平台上进行实际测试是唯一的可靠途径。

## 项目概述：Modal 平台上的系统性对比

本项目在 Modal 云平台的 GPU 容器环境中，对 vLLM 和 SGLang 进行了全面的基准测试。Modal 作为新兴的 serverless GPU 平台，提供了按需扩展的计算资源，其环境配置代表了现代云原生 AI 部署的典型场景。

测试覆盖了两个主流的开源模型：Meta 的 Llama-3 8B 和 Mistral AI 的 Mistral-7B。这两款模型在参数规模上相近，但架构细节有所不同，能够检验推理框架对不同模型结构的适应能力。

## 测试维度与评估指标

项目的评估体系设计全面，涵盖了生产环境中最关心的几个维度：

### 吞吐量(Tokens/Sec)

吞吐量衡量系统在单位时间内能够生成的 token 数量，是评估推理服务处理能力的基础指标。高吞吐量意味着系统能够支撑更多的并发用户，或者在相同负载下使用更少的计算资源。

测试中发现，吞吐量的瓶颈往往不在于计算本身，而在于内存带宽和注意力机制的效率。PagedAttention 等内存优化技术对吞吐量的提升效果显著。

### 延迟分布(P50/P99)

延迟是用户体验的直接决定因素。项目同时报告了 P50(中位数)和 P99(第 99 百分位)延迟，分别代表典型情况和最坏情况。

P50 延迟反映了正常负载下的响应速度，而 P99 延迟则揭示了系统在高压或异常负载下的表现。生产环境中，P99 延迟往往比平均延迟更具参考价值，因为它决定了用户可能遇到的最差体验。

测试数据显示，随着 QPS(每秒查询数)的增加，延迟分布呈现明显的右偏趋势。这意味着虽然大部分请求仍能获得较快响应，但长尾延迟可能急剧恶化，需要在架构设计时预留足够的缓冲。

### 成本效益(Cost-per-Million-Tokens)

在云原生部署中，成本是不可忽视的因素。项目计算了每处理一百万个 token 所需的计算成本，为技术选型提供了经济维度的参考。

成本的计算考虑了 GPU 实例的运行时间和单价。值得注意的是，更高吞吐量的配置虽然单秒成本可能更高，但由于处理速度更快，单位 token 的成本反而可能更低。这种吞吐与成本的非线性关系，需要在实际部署中仔细权衡。

## vLLM 与 SGLang 技术特性对比

### vLLM：PagedAttention 的先发优势

vLLM 的核心创新是 PagedAttention，它将注意力计算中的 KV 缓存管理类比为操作系统的虚拟内存分页。传统方法为每个序列预分配连续的 KV 缓存空间，导致严重的内存碎片和浪费。PagedAttention 允许将 KV 缓存存储在非连续的内存块中，按需分配和回收，显著提高了内存利用效率。

这一技术使 vLLM 能够在一个 GPU 上同时服务更多的并发请求，或者在相同并发数下支持更长的上下文长度。对于需要处理长文档或多轮对话的应用场景，PagedAttention 的优势尤为明显。

vLLM 还提供了丰富的调度策略，包括 FCFS(先来先服务)、优先级调度和抢占式调度等，能够适应不同的业务需求。其成熟的生态和广泛的社区支持，也是生产部署的重要考量因素。

### SGLang：结构化生成的效率革新

SGLang 的设计哲学与 vLLM 有所不同。它在支持标准 LLM 推理的同时，特别强调结构化生成(Structured Generation)的能力。结构化生成允许模型按照预定义的格式(如 JSON Schema)输出，这对于需要与下游系统集成的应用至关重要。

SGLang 的 RadixAttention 技术进一步优化了前缀缓存。在多轮对话或批量处理相似输入的场景下，系统可以复用已计算的前缀 KV 缓存，避免重复计算。这种优化对于 RAG(Retrieval-Augmented Generation)等应用场景特别有价值。

此外，SGLang 的并行解码技术能够同时生成多个候选输出，通过投机执行(speculative execution)减少端到端延迟。虽然这会增加计算量，但在延迟敏感的场景下，这种 trade-off 往往是值得的。

## 测试结果分析与洞察

### 吞吐量表现

在 Modal 的 A100 GPU 实例上，两款框架都展现了优秀的吞吐能力。具体数值因配置而异，但总体趋势显示：

- 在低并发场景下，两者的吞吐量差异不大，瓶颈主要在于模型本身的计算密度
- 随着并发数增加，vLLM 的 PagedAttention 开始显现优势，能够更充分地利用 GPU 内存
- SGLang 在前缀缓存命中的场景下表现突出，对于具有共享上下文的批量任务优势明显

### 延迟特性

延迟测试揭示了有趣的现象：

- P50 延迟方面，两款框架表现接近，都在可接受的范围内
- P99 延迟的差距更为明显，vLLM 的调度策略在高负载下表现出更好的稳定性
- SGLang 的投机解码在短序列生成时能够降低延迟，但在长序列生成时收益递减

### 成本对比

从每百万 token 成本的角度：

- 在标准配置下，vLLM 通常具有略微的成本优势，这得益于其更高的内存效率
- SGLang 在特定工作负载(如大量前缀共享的批量任务)下可能反超
- 成本差异的幅度通常在 10-20% 之间，对于大规模部署而言仍是可观的数字

## 选型建议与实践指导

基于测试结果，可以给出以下选型建议：

**选择 vLLM 的场景**：
- 需要支持长上下文(>4K tokens)的应用
- 高并发、多租户的服务场景
- 对延迟稳定性要求较高的生产环境
- 团队已有 vLLM 使用经验，生态兼容性优先

**选择 SGLang 的场景**：
- 需要结构化生成能力的应用(如 JSON 输出)
- 大量前缀共享的批量处理任务(如 RAG 批量查询)
- 延迟敏感且输出长度较短的交互式应用
- 希望尝试最新优化技术的创新项目

**混合策略**：

在某些复杂场景中，可以考虑混合部署策略。例如，使用 vLLM 处理通用查询，同时使用 SGLang 处理需要结构化输出的特定任务。这种异构部署虽然增加了运维复杂度，但能够最大化各框架的优势。

## 局限与未来工作

本项目的测试设计严谨，但仍有一些局限值得注意：

**模型覆盖**：目前仅测试了 Llama-3 8B 和 Mistral-7B，其他架构(如 Qwen、Gemma 等)的表现可能有所不同。

**硬件限制**：Modal 平台主要提供 NVIDIA GPU，对于 AMD、Intel 等其他硬件平台的适用性需要额外验证。

**负载特征**：测试使用的合成负载可能无法完全代表真实生产环境的复杂模式。

未来的改进方向包括：扩展模型覆盖范围、测试更多硬件配置、引入真实生产负载 trace、以及跟踪框架版本的迭代更新。

## 结语

llm-serving-bench 项目为 LLM 推理框架的选型提供了宝贵的实证数据。在云原生 AI 基础设施快速发展的今天，这类系统性的基准测试对于工程决策具有重要的参考价值。

vLLM 和 SGLang 都是优秀的开源项目，各有其适用场景。最终的技术选型应当基于具体的业务需求、负载特征和团队能力进行综合考量。期待该项目能够持续更新，为社区提供更多关于 LLM 推理优化的实践洞察。