正文

驯服不可调度者：黑盒大模型推理的客户端调度新范式

本文提出一种三层客户端调度架构，通过粗粒度token预测实现黑盒LLM API的智能调度，在无需了解提供商内部机制的情况下实现100%完成率和截止期限满足率。

大语言模型推理调度黑盒APItoken预测负载均衡SLO客户端优化系统架构

发布时间 2026/04/08 19:41最近活动 2026/04/09 10:46预计阅读 2 分钟

章节 01

导读：驯服黑盒LLM推理的客户端调度新范式

本文针对黑盒LLM API调度的困境，提出三层客户端调度架构，通过粗粒度token预测实现半先知调度，在无需了解提供商内部机制的情况下，实现100%完成率和截止期限满足率，同时兼顾公平性与鲁棒性。

章节 02

随着LLM API服务普及，用户依赖第三方推理服务，但提供商内部机制完全不可见。传统调度依赖系统内部状态（队列长度、资源利用率等），而黑盒场景下这些信息缺失，导致调度困难。核心问题：能否在不了解系统内部的情况下实现高效调度？

章节 03

近期研究发现输出token数量可在提交时预测，这使客户端调度进入半先知时代。即使无法知晓提供商内部队列状态，也可基于粗粒度token先验信息（工作量）做调度决策。类比餐厅：虽看不到厨房，但可预测每道菜准备时间优化服务顺序。

章节 04

研究者将调度分解为三层独立优化：

章节 05

信息阶梯实验：移除token量级信息，短请求P95延迟膨胀5.8倍，截止期限满足率显著下降；仅依赖类别标签不够，量级信息价值关键。
性能表现：平衡/高拥塞场景下，100%完成率+100%截止期限满足率，有效吞吐量4.2±1.6个SLO请求/秒，短请求P95延迟与配额分层隔离仅差几十毫秒。
鲁棒性：即使预测有60%乘法误差，系统仍优雅降级，对预测质量不敏感。

章节 06

公平性权衡：Fair Queuing（短请求P90延迟改善32%，长请求开销增17%）比Short-Priority（短请求改善27%，长请求开销增116%）更均衡；分配层可灵活适配不同公平性目标。
重负载场景：策略在完成率、尾部延迟、可解释削减三方面分化；成本阶梯法使过载决策可解释，用户理解请求延迟/拒绝原因。

章节 07

章节 08

本研究通过半先知token预测和三层架构，证明在黑盒LLM API环境中可实现高效、公平、可解释的调度。这不仅是技术突破，更是思维转变：利用可用信息在约束下找最优解。随着LLM服务普及，客户端调度智慧将愈发重要。