# Kairos：面向分离式LLM推理的SLO感知调度系统

> 本文介绍Kairos调度系统，通过紧急度优先调度和松弛引导的自适应批处理机制，解决分离式LLM推理架构中的请求长度长尾分布导致的SLO达成率问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-04T08:29:47.000Z
- 最近活动: 2026-05-05T03:22:42.595Z
- 热度: 123.1
- 关键词: LLM推理, 分离式架构, SLO调度, TTFT, TPOT, 请求调度, 连续批处理, 长尾分布
- 页面链接: https://www.zingnex.cn/forum/thread/kairos-llmslo
- Canonical: https://www.zingnex.cn/forum/thread/kairos-llmslo
- Markdown 来源: ingested_event

---

## 生产环境LLM推理的调度挑战\n\n在大语言模型（LLM）的生产环境部署中，满足严格的服务等级目标（SLO）是一项核心挑战。与许多其他在线服务不同，LLM推理面临着独特的请求模式特征——请求长度呈现明显的长尾分布。这种分布特性在分离式（disaggregated）推理架构中引发了一系列问题：在预填充（prefill）阶段，长请求会导致队首阻塞（head-of-line blocking）；在解码（decode）阶段，慢请求（stragglers）会造成资源利用不足。\n\n现有的主流系统通常采用先到先服务（FCFS）策略处理预填充阶段，并使用连续批处理（continuous batching）处理解码阶段。然而，这些通用策略缺乏对LLM推理特有工作负载模式的适应能力，导致SLO达成率受损，系统吞吐量也无法达到最优。\n\n## Kairos的系统设计概览\n\nKairos是一个SLO感知的调度系统，专门针对分离式LLM推理架构设计。其核心创新在于引入了两个互补的机制：预填充阶段的紧急度优先调度（urgency-based priority scheduling）和解码阶段的松弛引导自适应批处理（slack-guided adaptive batching）。\n\n这两个机制分别针对TTFT（Time-To-First-Token）和TPOT（Time-Per-Output-Token）两个关键SLO指标进行优化。TTFT衡量从请求到达到首个输出生成的延迟，直接影响用户体验的响应感知；TPOT衡量后续每个输出token的生成时间，决定了生成内容的流畅度。\n\n## 预填充阶段：预测驱动的紧急度调度\n\n在预填充阶段，Kairos的核心策略是 urgency-based priority scheduling。传统FCFS策略的问题在于，当一个长请求到达时，它会阻塞后续所有短请求的处理，即使这些短请求本可以更快完成。\n\nKairos的解决方案是引入预测机制：系统会预测每个请求的预填充完成时间，并基于这些预测动态选择下一个要处理的请求。具体来说，系统会优先处理那些能够在TTFT SLO截止时间内完成的请求，从而最大化TTFT SLO的达成率。\n\n这种预测驱动的调度需要准确的成本模型。Kairos通过分析请求的特征（如输入长度、模型配置等）来估计预填充计算时间。虽然预测不可能百分之百准确，但只要具有统计意义上的可靠性，就能够显著提升整体调度效果。\n\n## 解码阶段：松弛时间的贪婪批处理\n\n解码阶段的挑战与预填充不同。在连续批处理架构中，系统会将多个请求的解码步骤批量执行以提高GPU利用率。然而，当批次中包含一个慢请求时，整个批次都需要等待最慢的那个请求完成，这就造成了资源浪费。\n\nKairos提出的 slack-guided adaptive batching 策略巧妙地利用了SLO的"松弛时间"（slack）。具体来说，系统会比较每个请求的每步解码时间与TPOT SLO要求之间的差距。如果某个请求的当前进度距离其SLO截止时间还有充足余量，系统就可以将其与更多短请求打包到同一个批次中。\n\n这种贪婪式的打包策略在保证SLO的前提下最大化了批次大小，从而提升了吞吐量。关键在于系统需要持续监控每个请求的进度，并动态调整批次组成。\n\n## 实验评估与性能提升\n\nKairos的实现基于一个在线服务数据集和当前最先进的LLM模型。实验结果展示了显著的性能提升：\n\n- TTFT SLO达成率提升最高达23.9%\n- TPOT SLO达成率提升最高达27.1%\n- 端到端SLO达成率提升最高达33.8%\n- 解码吞吐量提升最高达19.3%\n\n这些数字表明，通过更智能的调度策略，可以在不增加硬件资源的情况下显著提升服务质量。对于大规模LLM服务提供商而言，这意味着可以用相同的成本支持更多用户，或者以更低的成本达到相同的性能水平。\n\n## 技术洞察与行业意义\n\nKairos的研究揭示了一个重要的系统设计原则：通用调度策略在面对特定工作负载特征时往往表现次优。LLM推理的请求长度长尾分布是一个已知的特性，但将其转化为调度策略的优化机会需要深入的理解和精细的工程实现。\n\n从更广泛的视角看，Kairos也体现了AI基础设施领域的一个趋势——从简单的资源管理转向智能化的工作负载调度。随着AI模型规模和复杂度的持续增长，这类调度优化将变得越来越重要。\n\n对于正在部署或优化LLM推理服务的团队而言，Kairos提供了一个值得参考的技术方案。其核心思想——预测驱动的调度和SLO感知的资源分配——可以应用于多种不同的系统架构和部署场景。
