Zing 论坛

正文

Clairvoyant:通过预测性SJF调度缓解串行LLM后端队首阻塞

Clairvoyant是一个用于串行LLM后端的即插即用代理,通过XGBoost分类器预测响应长度实现预测性最短作业优先调度,在高负载下为短请求降低70-76%的延迟。

LLM推理调度队首阻塞最短作业优先响应长度预测边缘部署
发布时间 2026/06/05 21:19最近活动 2026/06/08 11:30预计阅读 2 分钟
Clairvoyant:通过预测性SJF调度缓解串行LLM后端队首阻塞
1

章节 01

Clairvoyant:通过预测性SJF调度缓解串行LLM后端队首阻塞(导读)

Clairvoyant:通过预测性SJF调度缓解串行LLM后端队首阻塞(导读)

Clairvoyant是针对串行LLM后端(如Ollama、llama.cpp)的即插即用代理,通过XGBoost分类器预测响应长度实现预测性最短作业优先(SJF)调度,解决高负载下的队首阻塞问题,在高负载场景为短请求降低70-76%延迟。 原作者/维护者:Clairvoyant研究团队 来源:arXiv(2026年6月5日发布,链接:http://arxiv.org/abs/2606.07248v1)

2

章节 02

问题背景与现有方案局限

问题背景与现有方案局限

串行LLM后端(如Ollama、llama.cpp)采用先进先出(FCFS)调度,轻负载下工作良好,但高负载混合工作负载会产生严重队首阻塞:短请求需等待长文本生成任务。 现有方案局限:

  • 连续批处理(vLLM等)需大量显存存储KV缓存,不适合边缘设备;
  • 抢占式调度需复杂上下文保存恢复机制;
  • 启发式分类(如输入长度估计输出)准确性不足。
3

章节 03

Clairvoyant核心方法

Clairvoyant核心方法

  1. 预测性SJF调度:基于输入特征预测输出长度,优先处理短任务(依赖相对排序,无需绝对精确);
  2. 轻量级特征提取:19个词法特征(输入长度统计、语言特征、模板结构等),微秒级提取;
  3. XGBoost分类器:高效梯度提升树,导出为ONNX格式,预测延迟仅0.029毫秒(可忽略)。
4

章节 04

关键发现:自然对话数据的重要性

关键发现:自然对话数据的重要性

  • 指令数据集退化:受简洁性约束,长响应占比极低(<0.02%),类别不平衡导致模型无法有效区分长短请求;
  • 自然对话日志价值:真实用户对话记录中长短请求分布均衡,是有效训练数据源。
5

章节 05

实验评估结果

实验评估结果

  • 预测准确性:分布内测试集准确率62-96%,跨分布测试集52-66%(具备泛化能力);
  • 端到端性能:RTX4090上,100并发请求下短请求P50延迟降低70-76%,稳态负载(ρ=0.74)下降低17%。
6

章节 06

部署与使用特点

部署与使用特点

  • 即插即用:独立代理服务,无需修改底层推理后端,兼容OpenAI接口;
  • 开源:支持自由使用、修改和扩展;
  • 低资源需求:预测模型轻量,可与后端同机运行或部署在轻量级实例。
7

章节 07

总结与未来方向

总结与未来方向

总结:Clairvoyant通过轻量响应长度预测实现SJF调度,有效缓解串行LLM后端队首阻塞,对边缘部署具有重要实用价值; 局限:预测依赖词法特征(难捕捉复杂语义)、调度策略简单(无优先级/用户等级考虑)、多后端支持有限; 未来方向:优化预测模型、探索复杂调度策略、扩展后端支持范围。