Zing 论坛

正文

Kairos:面向分离式LLM推理的SLO感知调度系统

本文介绍Kairos调度系统,通过紧急度优先调度和松弛引导的自适应批处理机制,解决分离式LLM推理架构中的请求长度长尾分布导致的SLO达成率问题。

LLM推理分离式架构SLO调度TTFTTPOT请求调度连续批处理长尾分布
发布时间 2026/05/04 16:29最近活动 2026/05/05 11:22预计阅读 2 分钟
Kairos:面向分离式LLM推理的SLO感知调度系统
1

章节 01

Kairos:面向分离式LLM推理的SLO感知调度系统导读

本文介绍Kairos调度系统,针对分离式LLM推理架构中请求长度长尾分布导致的SLO达成率问题,通过预填充阶段的紧急度优先调度和解码阶段的松弛引导自适应批处理机制,优化TTFT(首token延迟)和TPOT(后续token生成时间)两个关键SLO指标,显著提升SLO达成率与系统吞吐量。

2

章节 02

生产环境LLM推理的调度挑战

在LLM生产部署中,满足严格SLO是核心挑战。LLM推理请求长度呈长尾分布,在分离式架构下:预填充阶段长请求会导致队首阻塞;解码阶段慢请求造成资源利用不足。现有FCFS(预填充)和连续批处理(解码)策略缺乏对LLM特有负载的适应能力,导致SLO达成率受损、吞吐量无法最优。

3

章节 03

预填充阶段:预测驱动的紧急度调度

Kairos预填充阶段采用紧急度优先调度策略。传统FCFS会让长请求阻塞短请求,而Kairos通过预测请求预填充完成时间,优先处理能在TTFT SLO截止时间内完成的请求,最大化TTFT SLO达成率。该策略依赖基于请求特征(输入长度、模型配置等)的成本模型估计预填充时间,即使预测非100%准确,也能显著提升调度效果。

4

章节 04

解码阶段:松弛时间引导的自适应批处理

解码阶段,Kairos提出松弛引导自适应批处理策略。连续批处理中慢请求会拖慢整个批次,Kairos利用SLO的“松弛时间”(当前进度与SLO截止时间的余量),将有充足松弛时间的请求与更多短请求打包,在保证SLO前提下最大化批次大小,提升GPU利用率与吞吐量。系统需持续监控请求进度并动态调整批次组成。

5

章节 05

实验评估:显著的性能提升

基于在线服务数据集和先进LLM模型的实验显示,Kairos带来显著性能提升:TTFT SLO达成率最高提升23.9%,TPOT SLO达成率最高提升27.1%,端到端SLO达成率最高提升33.8%,解码吞吐量最高提升19.3%。这表明智能调度可在不增加硬件的情况下提升服务质量。

6

章节 06

技术洞察与行业意义

Kairos揭示:通用调度策略在特定负载下表现次优,需针对LLM请求长尾分布优化。它体现AI基础设施从简单资源管理转向智能工作负载调度的趋势。对LLM部署团队,Kairos的预测驱动调度和SLO感知资源分配思想可应用于多种架构场景,具有参考价值。