Zing 论坛

正文

驯服不可调度者:黑盒大模型推理的客户端调度新范式

本文提出一种三层客户端调度架构,通过粗粒度token预测实现黑盒LLM API的智能调度,在无需了解提供商内部机制的情况下实现100%完成率和截止期限满足率。

大语言模型推理调度黑盒APItoken预测负载均衡SLO客户端优化系统架构
发布时间 2026/04/08 19:41最近活动 2026/04/09 10:46预计阅读 2 分钟
驯服不可调度者:黑盒大模型推理的客户端调度新范式
1

章节 01

导读:驯服黑盒LLM推理的客户端调度新范式

本文针对黑盒LLM API调度的困境,提出三层客户端调度架构,通过粗粒度token预测实现半先知调度,在无需了解提供商内部机制的情况下,实现100%完成率和截止期限满足率,同时兼顾公平性与鲁棒性。

2

章节 02

背景:黑盒LLM API的调度挑战

随着LLM API服务普及,用户依赖第三方推理服务,但提供商内部机制完全不可见。传统调度依赖系统内部状态(队列长度、资源利用率等),而黑盒场景下这些信息缺失,导致调度困难。核心问题:能否在不了解系统内部的情况下实现高效调度?

3

章节 03

半先知调度:token预测带来的突破

近期研究发现输出token数量可在提交时预测,这使客户端调度进入半先知时代。即使无法知晓提供商内部队列状态,也可基于粗粒度token先验信息(工作量)做调度决策。类比餐厅:虽看不到厨房,但可预测每道菜准备时间优化服务顺序。

4

章节 04

三层架构:解耦调度问题的关键

研究者将调度分解为三层独立优化:

  1. 分配层:用自适应赤字轮询(DRR)算法处理不同类别请求的资源共享,动态调整配额。
  2. 排序层:类内采用可行集评分法,优先处理最可能满足SLO的请求(类似急诊分诊)。
  3. 过载控制层:基于成本阶梯做准入/延迟/拒绝决策,避免系统过载恶化。
5

章节 05

实验证据:粗粒度预测与性能表现

  • 信息阶梯实验:移除token量级信息,短请求P95延迟膨胀5.8倍,截止期限满足率显著下降;仅依赖类别标签不够,量级信息价值关键。
  • 性能表现:平衡/高拥塞场景下,100%完成率+100%截止期限满足率,有效吞吐量4.2±1.6个SLO请求/秒,短请求P95延迟与配额分层隔离仅差几十毫秒。
  • 鲁棒性:即使预测有60%乘法误差,系统仍优雅降级,对预测质量不敏感。
6

章节 06

公平性与重负载场景分析

  • 公平性权衡:Fair Queuing(短请求P90延迟改善32%,长请求开销增17%)比Short-Priority(短请求改善27%,长请求开销增116%)更均衡;分配层可灵活适配不同公平性目标。
  • 重负载场景:策略在完成率、尾部延迟、可解释削减三方面分化;成本阶梯法使过载决策可解释,用户理解请求延迟/拒绝原因。
7

章节 07

实践启示:客户端调度的关键原则

  1. 核心投资token预测:即使粗略的输出长度预测也能带来巨大调度收益。
  2. 分层架构价值:分离分配、排序、过载控制,易于理解和调优。
  3. 公平性可配置:根据业务需求选择分配策略,而非一刀切。
  4. 鲁棒性优先:设计时考虑预测误差,确保不完美条件下优雅运行。
8

章节 08

结语:从不可调度到可控的转变

本研究通过半先知token预测和三层架构,证明在黑盒LLM API环境中可实现高效、公平、可解释的调度。这不仅是技术突破,更是思维转变:利用可用信息在约束下找最优解。随着LLM服务普及,客户端调度智慧将愈发重要。