Zing 论坛

正文

双池令牌预算路由:节省42% GPU成本的生产级LLM服务方案

微软提出双池令牌预算路由机制,通过将请求智能分配到短上下文高吞吐池和长上下文高容量池,实现年省286万美元GPU成本。

LLM服务成本优化请求路由GPU利用率令牌预算双池架构vLLM
发布时间 2026/04/09 18:47最近活动 2026/04/10 12:49预计阅读 2 分钟
双池令牌预算路由:节省42% GPU成本的生产级LLM服务方案
1

章节 01

【导读】双池令牌预算路由:生产级LLM服务的成本优化方案

微软提出双池令牌预算路由机制,通过将请求智能分配到短上下文高吞吐池和长上下文高容量池,解决生产LLM服务中"一刀切"配置导致的资源浪费问题,实现GPU成本节省31-42%(年省286万美元)及可靠性显著提升。

2

章节 02

生产LLM服务的配置困境

当前vLLM等推理系统采用"一刀切"配置(按最坏长上下文预配),但实际80-95%请求为短上下文(<2K token),导致三重损失:吞吐量容量浪费(4-8倍)、可靠性问题(OOM崩溃、请求抢占)、成本激增。

3

章节 03

双池令牌预算路由的核心思想

将GPU集群划分为两个专门化池:高吞吐短上下文池(优化并发处理)、高容量长上下文池(处理长上下文请求)。关键在于准确估计请求总令牌预算(输入提示+预期输出)以实现智能路由。

4

章节 04

在线学习的令牌预算估计方法

采用无需分词器的在线学习方法:1.基于字节的令牌估计(分析字节-令牌转换比率);2.指数移动平均学习(动态更新比率适应负载变化);3.类别感知粒度(按请求类别学习不同比率)。

5

章节 05

实验验证与收益结果

在真实数据集(Azure LLM、LMSYS-Chat-1M)上验证:GPU小时减少31-42%(年省286万美元);抢占率降低5.4倍,P99首token时间改善6%;大规模场景(Qwen3-235B+MI300X,1万请求/秒)预计年省1540万美元。

6

章节 06

双池路由的技术特性与优势

技术优势包括:O(1)分发开销(无瓶颈)、自动适应异构工作负载、与现有优化(PagedAttention等)无缝集成、无需修改模型或框架(纯基础设施优化)。

7

章节 07

对LLM服务架构的启示

启示有:重视请求异构性(避免资源浪费)、在线学习的价值(自适应动态负载)、分层优化策略(路由层+服务层全局最优)、成本意识设计(将成本效益作为核心考量)。

8

章节 08

局限与未来方向

当前局限为二元划分请求长度;未来方向:探索多级池设计、更复杂的预测模型(基于内容的深度估计)、适应模型规模增长与新型硬件平台。