正文

Lodestar: 基于在线学习的LLM推理请求路由系统

本文介绍Lodestar，一种通过在线学习持续优化请求路由策略的LLM推理调度系统，在公共云GPU集群实验中相比SOTA启发式方法平均降低1.41倍TTFT，并能在约5分钟内学习出高效路由策略。

LLM推理服务请求路由在线学习Lodestar负载均衡GPU集群调度

发布时间 2026/05/31 09:31最近活动 2026/06/02 10:54预计阅读 4 分钟

章节 01

Lodestar: 基于在线学习的LLM推理请求路由系统导读

Lodestar: 基于在线学习的LLM推理请求路由系统

本文介绍arXiv论文《Lodestar: An Online-Learning LLM Inference Router》提出的智能路由系统，旨在解决LLM推理服务中的请求分配难题。核心亮点：

问题定位：传统负载均衡方法无法应对LLM推理的输入依赖、批处理/KV缓存耦合、非线性延迟等复杂特性。
解决方案：通过在线学习持续优化路由策略，适应动态工作负载与基础设施变化。
关键成果：公共云GPU集群实验中，相比SOTA启发式方法平均降低1.41倍TTFT，且能在约5分钟内学习出高效策略。
来源信息：论文链接http://arxiv.org/abs/2606.00946v1，发布时间2026年5月31日。

章节 02

LLM推理请求路由的核心挑战与传统方法局限

LLM推理路由的独特复杂性

LLM推理请求路由面临三大挑战：

输入依赖的执行特性：短提示与长上下文请求延迟差异巨大，历史平均预测不可靠。
批处理与KV缓存耦合：连续批处理和前缀缓存带来跨请求耦合，请求最优分配需考虑现有实例的批次状态与缓存复用。
非线性延迟响应：上下文长度（平方级复杂度）、模型配置、硬件异构等因素导致延迟非线性变化。

传统方法的不足

传统负载均衡算法：轮询、最少连接等忽略请求特性与实例状态异质性，效果差。
LLM专用启发式：前缀缓存感知、负载感知等规则存在静态性（无法适应动态变化）、局部最优、难以组合调优等局限。

章节 03

Lodestar系统架构与核心组件

Lodestar采用感知-学习-决策闭环架构，核心组件包括：

实时状态收集器：持续收集实例级（负载、KV缓存、队列长度）、请求级（输入/输出长度、前缀匹配）、性能观测（TTFT、TPOT）数据。
在线奖励预测器：核心创新，通过在线学习模型预估请求路由到某实例的奖励（如TTFT降低），支持多目标优化。
路由决策器：选择奖励最高的实例转发请求。

云原生设计

Sidecar模式部署，无需修改vLLM等推理引擎代码。
标准HTTP/gRPC接口，支持水平扩展。

章节 04

实验结果：显著的性能提升

与SOTA启发式对比

公共云GPU集群实验结果：

集群类型	平均TTFT改进	P99 TTFT改进
同构集群	2.15倍	1.86倍
异构集群	4.38倍	4.42倍
平均	1.41倍	1.47倍

快速学习特性

Lodestar可在约5分钟内学习出高效策略，低启动成本且能快速适应变化。

异构集群优势

在异构集群（不同代GPU）上改进更显著，因在线学习能自动匹配硬件特性与请求特征。

章节 05

在线学习有效性的关键机制

捕捉非线性交互：神经网络模型能捕捉请求特征与实例状态的复杂非线性关系（如长上下文请求因缓存命中延迟降低）。
适应工作负载漂移：持续学习应对时序模式变化（昼夜、工作日/周末、突发流量）。
平衡探索与利用：通过ε-贪心策略、不确定性估计、渐进式更新，在已知最优策略与新策略探索间取得平衡。

章节 06

生产部署考量与最佳实践

数据收集开销

异步采样避免阻塞请求路径。
合理采样率平衡数据质量与开销。
利用eBPF降低内核态数据收集成本。

模型训练资源

使用轻量级模型（如小型MLP）。
增量更新而非全量重训练。
独立进程运行学习组件，不影响推理服务。

冷启动与回退

数据不足时回退到启发式策略。
监控预测置信度，低置信度时增加探索。

多目标优化

为不同目标（平均延迟、尾延迟、吞吐）训练专用预测器。
权重参数权衡目标，支持运行时切换。

章节 07

LLM服务架构启示与未来方向

架构启示

范式转变：从人工启发式到数据驱动的在线学习。
在线适应价值：静态策略难以应对动态环境，在线学习是优雅解决方案。
系统级优化空间：除模型优化外，调度层优化潜力巨大。

局限与未来

局限：单目标优化、缺乏全局请求序列规划、新请求泛化能力有限。
未来方向：多目标强化学习、全局调度算法、跨集群路由优化、模型预测与系统反馈结合。

Lodestar: 基于在线学习的LLM推理请求路由系统

Lodestar: 基于在线学习的LLM推理请求路由系统导读

Lodestar: 基于在线学习的LLM推理请求路由系统

LLM推理请求路由的核心挑战与传统方法局限

LLM推理路由的独特复杂性

传统方法的不足

Lodestar系统架构与核心组件

云原生设计

实验结果：显著的性能提升

与SOTA启发式对比

快速学习特性

异构集群优势

在线学习有效性的关键机制

生产部署考量与最佳实践

数据收集开销

模型训练资源

冷启动与回退

多目标优化

LLM服务架构启示与未来方向

架构启示

局限与未来

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统