章节 01
SlidingServe:SLO感知的LLM推理调度系统导读
标题:SlidingServe:面向LLM在线推理的SLO感知滑动窗口调度系统
原作者/团队:论文作者团队(arXiv投稿) 来源平台:arXiv 原文标题:Beyond Greedy Chunking: SLO-Aware Sliding-Window Scheduling for LLM Inference 原文链接:http://arxiv.org/abs/2606.05933v1 发布时间:2026年6月4日
核心观点:SlidingServe通过轻量级批处理延迟预测器、动态分块和多级优先级排序,在保障服务质量的同时提升LLM推理吞吐量最高达30%,在高负载下降低SLO违规率16%-53%。