章节 01
【导读】双池令牌预算路由:生产级LLM服务的成本优化方案
微软提出双池令牌预算路由机制,通过将请求智能分配到短上下文高吞吐池和长上下文高容量池,解决生产LLM服务中"一刀切"配置导致的资源浪费问题,实现GPU成本节省31-42%(年省286万美元)及可靠性显著提升。
正文
微软提出双池令牌预算路由机制,通过将请求智能分配到短上下文高吞吐池和长上下文高容量池,实现年省286万美元GPU成本。
章节 01
微软提出双池令牌预算路由机制,通过将请求智能分配到短上下文高吞吐池和长上下文高容量池,解决生产LLM服务中"一刀切"配置导致的资源浪费问题,实现GPU成本节省31-42%(年省286万美元)及可靠性显著提升。
章节 02
当前vLLM等推理系统采用"一刀切"配置(按最坏长上下文预配),但实际80-95%请求为短上下文(<2K token),导致三重损失:吞吐量容量浪费(4-8倍)、可靠性问题(OOM崩溃、请求抢占)、成本激增。
章节 03
将GPU集群划分为两个专门化池:高吞吐短上下文池(优化并发处理)、高容量长上下文池(处理长上下文请求)。关键在于准确估计请求总令牌预算(输入提示+预期输出)以实现智能路由。
章节 04
采用无需分词器的在线学习方法:1.基于字节的令牌估计(分析字节-令牌转换比率);2.指数移动平均学习(动态更新比率适应负载变化);3.类别感知粒度(按请求类别学习不同比率)。
章节 05
在真实数据集(Azure LLM、LMSYS-Chat-1M)上验证:GPU小时减少31-42%(年省286万美元);抢占率降低5.4倍,P99首token时间改善6%;大规模场景(Qwen3-235B+MI300X,1万请求/秒)预计年省1540万美元。
章节 06
技术优势包括:O(1)分发开销(无瓶颈)、自动适应异构工作负载、与现有优化(PagedAttention等)无缝集成、无需修改模型或框架(纯基础设施优化)。
章节 07
启示有:重视请求异构性(避免资源浪费)、在线学习的价值(自适应动态负载)、分层优化策略(路由层+服务层全局最优)、成本意识设计(将成本效益作为核心考量)。
章节 08
当前局限为二元划分请求长度;未来方向:探索多级池设计、更复杂的预测模型(基于内容的深度估计)、适应模型规模增长与新型硬件平台。