# 连续批处理LLM推理的排队论性能建模：理论与实践结合的系统研究

> 本文介绍 EE384S-Project，一个结合 SimPy 仿真器、解析模型和真实 vLLM 测量实验的综合性研究项目，深入分析连续批处理 LLM 推理中的 TTFT、吞吐量和阻塞行为。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T00:40:20.000Z
- 最近活动: 2026-06-16T00:52:41.792Z
- 热度: 148.8
- 关键词: LLM推理, 连续批处理, 排队论, 性能建模, vLLM, TTFT优化, 系统研究
- 页面链接: https://www.zingnex.cn/forum/thread/llm-a0c6e285
- Canonical: https://www.zingnex.cn/forum/thread/llm-a0c6e285
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Jav331
- 来源平台：github
- 原始标题：EE384S-Project
- 原始链接：https://github.com/Jav331/EE384S-Project
- 来源发布时间/更新时间：2026-06-16T00:40:20Z

## 原作者与来源\n\n- 原作者/维护者：Jav331\n- 来源平台：GitHub\n- 原始标题：EE384S-Project\n- 原始链接：https://github.com/Jav331/EE384S-Project\n- 来源发布时间/更新时间：2026-06-16T00:40:20Z\n\n## 研究背景与问题动机\n\n大语言模型（LLM）推理服务的性能优化是当前 AI 基础设施领域的核心挑战之一。与训练阶段不同，推理服务需要面对高度动态的请求到达模式、变化多端的输入输出长度，以及有限的 GPU 显存资源。\n\n连续批处理（continuous batching）技术通过在迭代级别动态组合请求，显著提高了 GPU 利用率。然而，这种机制引入了复杂的资源竞争问题：KV-cache 容量限制、批处理大小权衡、以及请求到达率波动，共同决定了系统的端到端延迟和吞吐量表现。\n\n传统性能建模方法往往难以准确捕捉这些动态交互。排队论作为研究随机服务系统的经典数学工具，为理解连续批处理行为提供了严谨的分析框架。\n\n## 项目架构：三位一体的研究方法论\n\nEE384S-Project 采用了一种独特的三轨并行的研究策略，将理论建模、离散事件仿真和真实系统测量有机结合：\n\n### SimPy 仿真器\n\n项目基于 SimPy 框架实现了细粒度的连续批处理仿真。仿真器精确建模了请求到达过程、KV-cache 分配、批处理调度以及可能的阻塞/抢占行为。这种离散事件仿真为验证解析模型提供了可控的实验环境。\n\n### 解析近似模型\n\n作者开发了多层次的解析模型，包括闭式表达式、马尔可夫链模型以及基于实测服务率的混合模型。这些模型试图从数学角度刻画 TTFT（首 token 时间）、吞吐量（goodput）和阻塞概率等关键指标。\n\n### Modal/vLLM 真实测量\n\n最具价值的是项目在真实硬件上的验证工作。使用 Modal 云平台和 vLLM 推理引擎，研究者在 A10G GPU 上对 Qwen2.5-1.5B-Instruct 模型进行了系统性测量。这种"仿真-理论-实测"的闭环验证是项目的重要特色。\n\n## 核心研究问题与指标定义\n\n项目聚焦于回答一个核心问题：到达率、批处理宽度、请求长度和 KV-cache 容量如何共同影响系统性能？为此定义了四类关键指标：\n\n### 首 Token 时间（TTFT）\n\nTTFT 衡量从请求提交到首个输出 token 生成的延迟，是用户感知延迟的核心组成部分。项目特别关注 p95/p99 尾延迟，这些指标对保证服务质量（QoS）至关重要。\n\n### 吞吐量（Goodput）\n\nGoodput 定义为系统成功处理的请求速率，区别于原始到达率。阻塞或失败的请求不计入 goodput，这使得该指标能够综合反映系统的有效服务能力。\n\n### 阻塞概率\n\n当 KV-cache 不足或批处理队列满时，新到达的请求可能被拒绝。阻塞概率直接反映了系统的资源紧张程度和用户体验损失。\n\n### 抢占行为\n\n连续批处理系统通常支持抢占机制，允许长请求暂时释放资源以服务短请求。项目测量了抢占发生的频率和影响。\n\n## 关键实验发现\n\n### 仿真与解析模型的对比\n\n项目在 48 组匹配配置上对比了解析模型与 SimPy 仿真结果。数据显示，goodput 的预测最为准确（平均相对误差 0.177），而 p95/p99 TTFT 的预测最具挑战性（平均相对误差约 1.8）。这提示尾延迟的精确建模仍是开放问题。\n\n### vLLM 硬件测量结果\n\n在 A10G GPU 上的 64 组配置 sweep 揭示了真实系统的行为特征：\n\n- 最高观测 goodput：6.74 req/s\n- 最差 p99 TTFT：0.185 秒\n- 平均 TTFT 保持在 0.061 秒以下\n- 平均 TPOT（每输出 token 时间）：8.3-10.2 毫秒\n\n值得注意的是，在当前测量范围内，阻塞概率和抢占计数均为零。这表明实验配置的负载压力尚未触及系统瓶颈，为后续更高压力实验指明了方向。\n\n## 实验设计与可复现性\n\n项目展现了出色的实验工程能力。ShareGPT 数据集被预处理为规范的 replay trace，作为仿真和实测的统一输入源。Modal 云平台的使用使得大规模 GPU 实验能够以可复现的方式执行。\n\n实验参数设计覆盖了实际部署的关键维度：到达率（0.5-8 req/s）、最大序列数（64/128）、GPU 显存利用率（0.3-0.9）。这种系统性参数 sweep 为理解配置空间提供了丰富数据。\n\n## 技术洞察与实践启示\n\n### 尾延迟的复杂性\n\n实验发现，增加 KV-cache 预算虽然减少了阻塞，但可能因允许更多并发请求而增加尾延迟。这种非单调行为说明资源配置需要精细权衡，而非简单的"越多越好"。\n\n### 仿真与现实的差距\n\n当前 vLLM 实验未观测到阻塞和抢占，与仿真器中观察到的行为形成对比。这可能源于实验配置尚未达到压力阈值，也可能反映了 vLLM 特定实现细节与简化仿真模型之间的差异。\n\n### 测量基础设施的价值\n\n项目建立的完整测量管线（从 trace 预处理到结果汇总）为后续研究提供了可复用的基础设施。这种工程投资对于系统性性能研究至关重要。\n\n## 局限性与未来方向\n\n作者坦诚地指出了当前研究的局限：vLLM 实验尚未验证 KV-blocking 行为，需要更高压力测试来触发队列堆积和抢占。这为后续工作指明了方向。\n\n潜在扩展包括：更大规模模型（如 7B、70B）的验证、多 GPU 并行场景、以及更复杂的请求长度分布。此外，将解析模型与实测数据进一步对齐，提高尾延迟预测精度，也是重要的理论方向。\n\n## 学术贡献与工程价值\n\nEE384S-Project 代表了系统研究的一种理想形态：从理论建模出发，通过仿真验证假设，最终在真实系统上完成实证。这种严谨的方法论对于 LLM 推理这一快速演进的领域尤为珍贵。\n\n对于实际部署者，项目提供的量化数据（如 6.74 req/s 的 goodput 上限、0.185 秒的 p99 TTFT 边界）可作为容量规划的参考基准。对于研究者，项目开源的代码和实验框架为进一步探索奠定了基础。