章节 01
导读:驯服黑盒LLM推理的客户端调度新范式
本文针对黑盒LLM API调度的困境,提出三层客户端调度架构,通过粗粒度token预测实现半先知调度,在无需了解提供商内部机制的情况下,实现100%完成率和截止期限满足率,同时兼顾公平性与鲁棒性。
正文
本文提出一种三层客户端调度架构,通过粗粒度token预测实现黑盒LLM API的智能调度,在无需了解提供商内部机制的情况下实现100%完成率和截止期限满足率。
章节 01
本文针对黑盒LLM API调度的困境,提出三层客户端调度架构,通过粗粒度token预测实现半先知调度,在无需了解提供商内部机制的情况下,实现100%完成率和截止期限满足率,同时兼顾公平性与鲁棒性。
章节 02
随着LLM API服务普及,用户依赖第三方推理服务,但提供商内部机制完全不可见。传统调度依赖系统内部状态(队列长度、资源利用率等),而黑盒场景下这些信息缺失,导致调度困难。核心问题:能否在不了解系统内部的情况下实现高效调度?
章节 03
近期研究发现输出token数量可在提交时预测,这使客户端调度进入半先知时代。即使无法知晓提供商内部队列状态,也可基于粗粒度token先验信息(工作量)做调度决策。类比餐厅:虽看不到厨房,但可预测每道菜准备时间优化服务顺序。
章节 04
研究者将调度分解为三层独立优化:
章节 05
章节 06
章节 07
章节 08
本研究通过半先知token预测和三层架构,证明在黑盒LLM API环境中可实现高效、公平、可解释的调度。这不仅是技术突破,更是思维转变:利用可用信息在约束下找最优解。随着LLM服务普及,客户端调度智慧将愈发重要。