Zing 论坛

正文

Lodestar: 基于在线学习的LLM推理请求路由系统

本文介绍Lodestar,一种通过在线学习持续优化请求路由策略的LLM推理调度系统,在公共云GPU集群实验中相比SOTA启发式方法平均降低1.41倍TTFT,并能在约5分钟内学习出高效路由策略。

LLM推理服务请求路由在线学习Lodestar负载均衡GPU集群调度
发布时间 2026/05/31 09:31最近活动 2026/06/02 10:54预计阅读 4 分钟
Lodestar: 基于在线学习的LLM推理请求路由系统
1

章节 01

Lodestar: 基于在线学习的LLM推理请求路由系统导读

Lodestar: 基于在线学习的LLM推理请求路由系统

本文介绍arXiv论文《Lodestar: An Online-Learning LLM Inference Router》提出的智能路由系统,旨在解决LLM推理服务中的请求分配难题。核心亮点:

  • 问题定位:传统负载均衡方法无法应对LLM推理的输入依赖、批处理/KV缓存耦合、非线性延迟等复杂特性。
  • 解决方案:通过在线学习持续优化路由策略,适应动态工作负载与基础设施变化。
  • 关键成果:公共云GPU集群实验中,相比SOTA启发式方法平均降低1.41倍TTFT,且能在约5分钟内学习出高效策略。
  • 来源信息:论文链接http://arxiv.org/abs/2606.00946v1,发布时间2026年5月31日。
2

章节 02

LLM推理请求路由的核心挑战与传统方法局限

LLM推理路由的独特复杂性

LLM推理请求路由面临三大挑战:

  1. 输入依赖的执行特性:短提示与长上下文请求延迟差异巨大,历史平均预测不可靠。
  2. 批处理与KV缓存耦合:连续批处理和前缀缓存带来跨请求耦合,请求最优分配需考虑现有实例的批次状态与缓存复用。
  3. 非线性延迟响应:上下文长度(平方级复杂度)、模型配置、硬件异构等因素导致延迟非线性变化。

传统方法的不足

  • 传统负载均衡算法:轮询、最少连接等忽略请求特性与实例状态异质性,效果差。
  • LLM专用启发式:前缀缓存感知、负载感知等规则存在静态性(无法适应动态变化)、局部最优、难以组合调优等局限。
3

章节 03

Lodestar系统架构与核心组件

Lodestar采用感知-学习-决策闭环架构,核心组件包括:

  1. 实时状态收集器:持续收集实例级(负载、KV缓存、队列长度)、请求级(输入/输出长度、前缀匹配)、性能观测(TTFT、TPOT)数据。
  2. 在线奖励预测器:核心创新,通过在线学习模型预估请求路由到某实例的奖励(如TTFT降低),支持多目标优化。
  3. 路由决策器:选择奖励最高的实例转发请求。

云原生设计

  • Sidecar模式部署,无需修改vLLM等推理引擎代码。
  • 标准HTTP/gRPC接口,支持水平扩展。
4

章节 04

实验结果:显著的性能提升

与SOTA启发式对比

公共云GPU集群实验结果:

集群类型 平均TTFT改进 P99 TTFT改进
同构集群 2.15倍 1.86倍
异构集群 4.38倍 4.42倍
平均 1.41倍 1.47倍

快速学习特性

Lodestar可在约5分钟内学习出高效策略,低启动成本且能快速适应变化。

异构集群优势

在异构集群(不同代GPU)上改进更显著,因在线学习能自动匹配硬件特性与请求特征。

5

章节 05

在线学习有效性的关键机制

  1. 捕捉非线性交互:神经网络模型能捕捉请求特征与实例状态的复杂非线性关系(如长上下文请求因缓存命中延迟降低)。
  2. 适应工作负载漂移:持续学习应对时序模式变化(昼夜、工作日/周末、突发流量)。
  3. 平衡探索与利用:通过ε-贪心策略、不确定性估计、渐进式更新,在已知最优策略与新策略探索间取得平衡。
6

章节 06

生产部署考量与最佳实践

数据收集开销

  • 异步采样避免阻塞请求路径。
  • 合理采样率平衡数据质量与开销。
  • 利用eBPF降低内核态数据收集成本。

模型训练资源

  • 使用轻量级模型(如小型MLP)。
  • 增量更新而非全量重训练。
  • 独立进程运行学习组件,不影响推理服务。

冷启动与回退

  • 数据不足时回退到启发式策略。
  • 监控预测置信度,低置信度时增加探索。

多目标优化

  • 为不同目标(平均延迟、尾延迟、吞吐)训练专用预测器。
  • 权重参数权衡目标,支持运行时切换。
7

章节 07

LLM服务架构启示与未来方向

架构启示

  1. 范式转变:从人工启发式到数据驱动的在线学习。
  2. 在线适应价值:静态策略难以应对动态环境,在线学习是优雅解决方案。
  3. 系统级优化空间:除模型优化外,调度层优化潜力巨大。

局限与未来

  • 局限:单目标优化、缺乏全局请求序列规划、新请求泛化能力有限。
  • 未来方向:多目标强化学习、全局调度算法、跨集群路由优化、模型预测与系统反馈结合。