正文

Token-Aware-Balancer：基于Token计数的智能LLM负载均衡器

本文介绍了一个创新的开源项目Token-Aware-Balancer，该项目使用Go语言开发，是一款基于Token计数而非连接数进行请求路由的L7层反向代理，专为大语言模型推理服务优化设计，在高并发场景下可降低12%的P99延迟。

大语言模型负载均衡反向代理Go语言Token计数推理优化高并发延迟优化LLM部署开源工具

发布时间 2026/04/06 20:43最近活动 2026/04/06 20:57预计阅读 3 分钟

Token-Aware-Balancer：基于Token计数的智能LLM负载均衡器

章节 01

导读：Token-Aware-Balancer——基于Token计数的LLM智能负载均衡器

本文介绍开源项目Token-Aware-Balancer，它是Go语言开发的L7层反向代理，专为LLM推理服务优化。核心创新在于以Token计数（而非连接数/请求数）作为负载均衡依据，能更准确反映后端服务器实际负载，在高并发场景下降低12%的P99延迟。项目解决传统负载均衡对LLM异构请求的适配问题，为高效部署LLM推理服务提供智能解决方案。

章节 02

项目背景：传统负载均衡在LLM推理场景的局限性

随着LLM广泛应用，高效部署扩展推理服务成为关键挑战。传统负载均衡策略（连接数/请求数/轮询）存在明显不足：不同LLM请求Token数量差异巨大（从几个到数千），粗粒度策略无法准确评估负载，导致部分服务器过载、部分空闲，影响服务质量。Token-Aware-Balancer针对此问题设计，核心是基于"飞行中Token计数"的路由决策。

章节 03

核心方法：Token感知的负载均衡策略与技术架构

设计理念

传统策略缺陷：连接数/请求数忽略Token差异，轮询不考虑实际负载。
Token感知优势：Token是LLM计算基本单元，飞行中Token数更能反映服务器忙碌程度，支持预测性路由。

技术实现

L7反向代理：解析HTTP请求内容，提取LLM相关信息。
Token计数机制：解析请求文本→Token化计算→预估输出Token→更新飞行中计数→请求完成后递减。
智能路由算法：最少Token优先、预估完成时间排序、加权分配、动态阈值调整。
健康检查：主动探测+被动监测+优雅故障转移+自动恢复。

章节 04

性能证据：高并发下P99延迟降低12%及资源利用率优化

P99延迟改善：压力测试中，相比传统连接数策略，P99延迟降低12%，提升用户体验（尤其是交互式应用）、增加吞吐量、减少长尾延迟。
资源利用率优化：避免服务器过载/空闲，均衡GPU利用率，减少排队延迟。

章节 05

适用场景：多租户、混合负载等LLM部署场景

Token-Aware-Balancer特别适合：

多租户服务：平衡不同租户的异构请求，保障服务质量。
混合负载环境：处理简短问答、长文档摘要等多种请求类型。
异构硬件集群：根据服务器能力动态分配负载。
高并发推理服务：改善延迟分布，提供稳定服务。

章节 06

部署与使用：易于集成的Go语言服务

基本配置：通过配置文件/命令行指定后端服务器、路由策略、Token计数参数、健康检查阈值等。
集成方式：前置代理、Kubernetes集成（Service/Ingress）、服务网格（Istio/Linkerd）、云原生部署（Docker/K8s）。
监控：提供飞行中Token数、延迟统计、错误率等指标，支持Prometheus/Grafana可视化。

章节 07

局限与未来：当前限制及发展规划

当前局限

Tokenizer依赖：需与后端LLM使用相同Tokenizer，模型差异影响准确性。
预估不确定性：输出Token数量预估存在误差。
单点故障：集中式代理需高可用部署。

未来方向

多模型支持：扩展更多LLM架构和Tokenizer。
自适应预估：用机器学习提升输出Token预估准确性。
分布式架构：消除单点瓶颈。
与推理引擎深度集成：获取更准确内部状态。
成本感知路由：结合云计费优化成本。

章节 08

结语：LLM推理基础设施的创新价值

Token-Aware-Balancer是LLM推理服务基础设施的重要创新，通过Token计数实现精准负载均衡，12%的P99延迟降低显著提升用户体验。该项目为LLM高效部署提供智能方案，对构建/优化LLM推理服务的团队具有参考价值，也推动了LLM服务架构的演进。