Zing 论坛

正文

SlidingServe:面向LLM在线推理的SLO感知滑动窗口调度系统

本文介绍SlidingServe系统,通过轻量级批处理延迟预测器、动态分块和多级优先级排序,在保障服务质量的同时提升LLM推理吞吐量最高达30%,在高负载下降低SLO违规率16%-53%。

LLM推理调度优化SLO保障批处理服务质量动态规划
发布时间 2026/06/04 17:36最近活动 2026/06/05 14:52预计阅读 3 分钟
SlidingServe:面向LLM在线推理的SLO感知滑动窗口调度系统
1

章节 01

SlidingServe:SLO感知的LLM推理调度系统导读

标题:SlidingServe:面向LLM在线推理的SLO感知滑动窗口调度系统

原作者/团队:论文作者团队(arXiv投稿) 来源平台:arXiv 原文标题:Beyond Greedy Chunking: SLO-Aware Sliding-Window Scheduling for LLM Inference 原文链接:http://arxiv.org/abs/2606.05933v1 发布时间:2026年6月4日

核心观点:SlidingServe通过轻量级批处理延迟预测器、动态分块和多级优先级排序,在保障服务质量的同时提升LLM推理吞吐量最高达30%,在高负载下降低SLO违规率16%-53%。

2

章节 02

LLM在线服务的调度困境(背景)

LLM在线服务的调度困境

随着大语言模型在交互式应用中的普及,推理调度面临三大痛点:

  1. 预测困难:批处理请求解码时间难以准确预估,调度决策缺乏前瞻性;
  2. 分块僵化:传统贪婪分块策略无法适应动态负载,易造成资源浪费或延迟超标;
  3. 公平与效率冲突:简单优先级策略难以兼顾关键请求保障与整体系统效率。
3

章节 03

SlidingServe核心架构(方法)

SlidingServe核心架构

SlidingServe的核心创新在于滑动窗口机制,整合当前与未来迭代信息,包含四大模块:

  1. 轻量级批处理延迟预测器:考虑KV缓存、序列长度、GPU负载等多维因素,低开销预估批处理执行时间;
  2. SlidingChunker动态分块:结合当前请求紧急度、下一批新请求及GPU状态,实现动态分块;
  3. 多级优先级排序器:综合紧急程度(剩余SLO时间)、服务等级、资源需求、等待时间排序;
  4. BatchConstructor动态规划:毫秒级求解最优请求集合,最大化满足SLO的请求数量。
4

章节 04

实验评估结果(证据)

实验评估结果

SlidingServe在多种负载下表现显著:

  1. 吞吐量提升:相比先进系统,服务容量最高提升30%,相同硬件支撑更多并发用户;
  2. SLO违规率降低:高负载下SLO违规率下降16%-53%,适合实时对话等严格延迟场景;
  3. 细粒度QoS支持:可为不同服务等级用户提供差异化延迟保证,不牺牲整体效率。
5

章节 05

滑动窗口机制的有效性(技术洞察)

滑动窗口机制的有效性

SlidingServe成功的关键在于打破单点决策模式:

  1. 避免短视决策:整合未来信息,防止贪婪策略牺牲长期效率;
  2. 平滑负载波动:有效吸收LLM推理的突发负载,维持系统稳定;
  3. 优化资源匹配:精确匹配计算资源与请求特征,减少资源浪费。
6

章节 06

部署实践启示(建议)

部署实践启示

应用SlidingServe的注意事项:

  1. 预测器校准:需根据模型、硬件、负载特征校准预测器,轻量级设计支持运行时持续校准;
  2. SLO定义灵活性:支持端到端延迟或分阶段目标,建议定义多级SLO利用差异化服务能力;
  3. 系统集成:模块化设计可逐步集成到现有LLM服务框架,组件独立引入。
7

章节 07

局限与未来方向

局限与未来方向

SlidingServe仍需探索的方向:

  1. 异构硬件支持:扩展到CPU+GPU混合架构或专用推理加速器;
  2. 多模型服务:应对同时服务多个不同规模模型的调度复杂度;
  3. 在线学习优化:通过在线学习持续优化预测器和排序策略,适应负载变化。
8

章节 08

总结

总结

SlidingServe是LLM推理调度领域的重要进展,通过滑动窗口机制整合当前与未来信息,在严格SLO保障下实现吞吐量与效率显著提升。为大规模LLM服务团队提供了宝贵技术参考,助力AI基础设施的规模化部署。