# DriftSched：面向多租户GPU推理的自适应QoS感知调度框架

> DriftSched通过运行时token漂移补偿机制，解决多租户LLM推理中的负载估计误差问题，SJF策略相比FIFO可降低42%中位延迟。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-02T00:39:31.000Z
- 最近活动: 2026-06-03T04:23:06.715Z
- 热度: 126.3
- 关键词: LLM推理, GPU调度, 多租户, QoS, Token漂移
- 页面链接: https://www.zingnex.cn/forum/thread/driftsched-gpuqos
- Canonical: https://www.zingnex.cn/forum/thread/driftsched-gpuqos
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference
- 原始链接：http://arxiv.org/abs/2606.02982v1
- 来源发布时间/更新时间：2026-06-02T00:39:31Z

# DriftSched：面向多租户GPU推理的自适应QoS感知调度框架\n\n## 原作者与来源\n\n- **原作者/维护者**：论文作者团队（arXiv:2606.02982v1）\n- **来源平台**：arXiv\n- **原文标题**：DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference\n- **原文链接**：http://arxiv.org/abs/2606.02982v1\n- **发布时间**：2026年6月2日\n\n## 问题背景：Token漂移引发的调度困境\n\n随着大型语言模型推理服务的快速增长，多租户GPU调度面临前所未有的挑战。现代推理运行时（如vLLM）通过连续批处理和优化内存管理提升了吞吐量，但准确估计异构推理请求的运行时成本仍然是一个重大难题。\n\n在实际生产环境中，观察到的输出长度往往与准入时的估计值存在显著偏差，这种现象被称为**运行时Token漂移（Runtime Token Drift）**。Token漂移会导致一系列连锁反应：\n\n- **工作负载误分类**：请求被错误地归类到不合适的队列\n- **队列失衡**：某些队列过载而其他队列空闲\n- **尾延迟增加**：长尾请求的等待时间急剧上升\n- **QoS降级**：整体服务质量下降，用户体验受损\n\n## DriftSched架构设计\n\nDriftSched是一个面向NVIDIA L4 GPU的多租户LLM推理服务的自适应QoS感知调度框架。其核心设计理念是通过运行时反馈驱动的漂移补偿，改善准入时的调度决策。\n\n### 四大核心组件\n\n**1. 工作负载分类（Workload Classification）**\n\n系统根据请求特征（如输入长度、预期输出长度、租户优先级等）对传入请求进行分类。准确的分类是后续调度的基础。\n\n**2. Token预算估计（Token-Budget Estimation）**\n\n在请求准入时，系统估计其所需的token预算。这是调度决策的关键输入，但也是误差的主要来源。\n\n**3. 租户感知队列管理（Tenant-Aware Queue Management）**\n\n框架支持多租户场景下的队列隔离和资源分配策略，确保不同租户的服务质量承诺得到保障。\n\n**4. 运行时漂移补偿（Runtime Drift Compensation）**\n\n这是DriftSched的核心创新。系统持续监控实际输出长度与估计值的偏差，并通过自适应偏置校正机制动态调整后续请求的预算估计。\n\n### 调度策略评估\n\nDriftSched框架系统评估了五种经典调度策略在多租户LLM推理场景下的表现：\n\n- **FIFO（先进先出）**：简单公平但缺乏优化\n- **Priority（优先级）**：按优先级排序，可能导致饥饿\n- **Weighted（加权）**：按比例分配资源\n- **SJF（最短作业优先）**：优先处理预计最短的请求\n- **Aging Priority（老化优先级）**：动态调整优先级防止饥饿\n\n## 关键实验发现\n\n### Token漂移的客观存在\n\n实验结果证实，运行时token漂移在不同工作负载类别中普遍存在且可测量。这意味着传统的静态估计方法难以应对实际生产环境的复杂性。\n\n### 自适应偏置校正的效果\n\nDriftSched的自适应偏置校正机制显著改善了估计准确性：\n\n- **MAE（平均绝对误差）降低38.8%**\n- **RMSE（均方根误差）降低40.5%**\n\n这一改进直接转化为工作负载分类稳定性和调度准确性的提升。\n\n### 调度策略性能对比\n\n在所有评估的调度器中，**SJF（最短作业优先）策略表现最佳**：\n\n- **中位端到端延迟降低约42%**（相比FIFO）\n- **P99延迟降低约16%**（在持续GPU竞争条件下）\n\n这一结果验证了"短作业优先"策略在LLM推理场景中的有效性，因为短请求的快速完成可以释放资源，减少后续请求的排队等待。\n\n## 技术贡献与价值\n\nDriftSched的研究做出了三方面重要贡献：\n\n**1. 自适应漂移感知调度架构**\n\n首次系统性地将运行时token漂移纳入多租户LLM推理调度框架，提供了端到端的解决方案。\n\n**2. 运行时Token漂移补偿机制**\n\n通过自适应偏置校正实现预算估计的动态优化，显著降低了估计误差。\n\n**3. 可复现的基准测试框架**\n\n为QoS感知的LLM推理调度评估提供了标准化的测试环境，有利于后续研究的比较和验证。\n\n## 实践启示\n\n对于LLM推理服务提供商，DriftSched的研究提供了以下实践指导：\n\n**重视运行时反馈**：静态调度策略难以应对动态变化的负载特性，引入运行时反馈机制是提升调度质量的关键。\n\n**选择合适的调度策略**：SJF在LLM推理场景下表现优异，值得在实际系统中优先考虑。\n\n**持续监控与调优**：Token漂移是客观存在的现象，需要建立持续监控和自适应调优的机制。\n\n## 总结\n\nDriftSched通过引入运行时token漂移补偿机制，有效解决了多租户LLM推理中的负载估计误差问题。实验表明，自适应偏置校正可将估计误差降低约40%，而SJF调度策略相比传统FIFO可降低42%的中位延迟。这些成果为构建高质量、高效率的LLM推理服务提供了重要的技术支撑。