正文

从HTTP服务到Token服务：LLM推理性能诊断实战指南

本文深入解析Kubernetes平台上LLM推理服务的性能诊断方法，通过vLLM实验数据揭示TTFT、TPOT、预填充、解码等关键指标之间的关系，帮助平台工程师理解推理延迟的多维本质。

LLM推理vLLM性能优化KubernetesGPUTTFTTPOTKV缓存大语言模型推理延迟

发布时间 2026/06/15 07:45最近活动 2026/06/15 07:51预计阅读 4 分钟

章节 01

导读：LLM推理性能诊断的范式转变与核心方法

本文深入解析Kubernetes平台上LLM推理服务的性能诊断方法，通过vLLM实验数据揭示TTFT、TPOT、预填充、解码等关键指标之间的关系，帮助平台工程师理解推理延迟的多维本质。LLM推理服务与常规Web服务性能调优截然不同，传统监控手段因无法捕捉其状态特性而失效，需从计算、内存带宽、内存容量三个资源维度及TTFT、TPOT、队列等待时间三个延迟信号进行分析。

章节 02

背景：传统监控对LLM推理服务失效的原因

传统HTTP服务监控关注请求成功率、响应时间、CPU和内存使用率，但LLM推理服务具有独特状态特性：涉及三个独立资源维度和三个独立延迟信号。

三个资源维度

计算资源（预填充阶段）：处理输入提示词，计算注意力矩阵，与输入长度强相关。
内存带宽（解码阶段）：生成每个输出Token时读取KV缓存，受显存带宽限制。
内存容量（KV缓存）：存储注意力键值对的显存空间，长序列或大并发易耗尽。

三个延迟信号

TTFT（Time To First Token）：请求发送到收到第一个输出Token的时间
TPOT（Time Per Output Token）：生成每个后续Token的耗时
队列等待时间：请求在服务端排队等待处理的时间

这三个信号独立变化，相同症状可能有不同根本原因。

章节 03

实验环境与配置

实验基于以下配置进行：

推理框架: vLLM 0.6.6.post1
模型: Qwen2.5-7B-Instruct
GPU: NVIDIA A40 (48GB显存)
部署模式: 单节点
监控方式: 从vLLM的/metrics端点采集Prometheus格式指标

选择vLLM因其是流行开源推理引擎，Qwen2.5-7B-Instruct适合资源受限场景。

章节 04

实验一：上下文长度对TTFT的影响

实验设计

固定输出Token数为64，逐步增加输入提示词长度，观察指标变化：

输入Token	TTFT(ms)	预填充(ms)	解码(ms)	TPOT(ms)
121	37.3	36.5	1831.1	29.07
511	73.6	73.1	1818.1	28.86
2041	261.8	260.9	1824.4	28.96
8191	1736.0	1734.0	1934.3	30.70

关键发现

TTFT几乎等于预填充时间（单并发场景差距<1ms）。
预填充时间呈超线性增长（输入4倍增长，预填充6.6倍增长），体现注意力机制O(n²)复杂度。
TPOT保持相对稳定（29ms→30.7ms），解码阶段受输入长度影响小。
输入长度主要驱动预填充和TTFT，解码阶段影响甚微。

章节 05

实验二：并发与资源饱和的核心洞察

核心洞察

短提示词场景: 系统并发能力受GPU计算能力限制，增加并发导致预填充时间延长、TTFT恶化。
长提示词场景: 限制因素转为显存容量，每个请求占用大量KV缓存，并发数大幅减少。

诊断意义

用户报告推理变慢时，需区分：

计算瓶颈：用更快GPU、模型量化或分布式张量并行。
显存容量瓶颈：减少并发、启用KV缓存压缩或更大显存。
显存带宽瓶颈：用更高带宽显存或优化注意力实现。

章节 06

关键概念详解：预填充、解码与KV缓存

预填充（Prefill）

处理输入提示词，并行计算所有输入Token的注意力表示，决定TTFT（用户等待第一个Token的时间）。

解码（Decode）

逐个生成输出Token，依赖之前所有Token，顺序执行无法并行化，决定TPOT（内容生成流畅度）。

KV缓存

存储Token的键值向量，避免解码阶段重复计算，但随序列长度和并发数线性增长，易成显存瓶颈。

TTFT与TPOT的权衡

优化一个可能恶化另一个：如增大批处理提高吞吐（改善TPOT），但增加队列延迟（恶化TTFT）。

章节 07

生产环境应用建议：监控、容量规划与未来方向

监控策略

端到端延迟: 跟踪TTFT和TPOT的P50/P95/P99百分位。
队列深度: 监控等待请求数量。
显存使用: 跟踪KV缓存占用率和峰值。
Token吞吐: 跟踪每秒生成Token数。

容量规划

需考虑三个维度：计算容量（GPU算力+模型规模）、显存容量（模型参数+KV缓存）、带宽容量（显存带宽+注意力模式）。

未来方向

Prometheus/Grafana仪表板可视化多维指标。
基于Gateway API实现推理感知路由。
探索分布式推理的监控和调优策略。

章节 08

总结：LLM推理服务的范式转变与核心启示

LLM推理服务标志着从传统HTTP服务向"Token服务"的范式转变，需重新思考性能监控、容量规划和故障诊断方法。

核心启示：

症状≠病因: 同样"慢"可能源于计算、显存容量或带宽三种不同瓶颈。
多维监控必要: 单一指标无法捕捉推理服务复杂行为。
输入特征决定瓶颈: 短提示和长提示受限于不同资源，需不同优化策略。