Zing 论坛

正文

RBG:面向Kubernetes的LLM推理服务编排框架

RBG(RoleBasedGroup)是一个Kubernetes API,专门用于编排分布式、有状态的AI推理工作负载,支持多角色协作和内置服务发现,特别适合Prefill/Decode分离等解耦架构的生产部署。

KubernetesLLM推理云原生AI基础设施分布式系统
发布时间 2026/04/07 14:11最近活动 2026/04/07 16:10预计阅读 3 分钟
RBG:面向Kubernetes的LLM推理服务编排框架
1

章节 01

RBG:面向Kubernetes的LLM推理服务编排框架(导读)

RBG(RoleBasedGroup)是一个Kubernetes API,专门用于编排分布式、有状态的AI推理工作负载,支持多角色协作和内置服务发现,特别适合Prefill/Decode分离等解耦架构的生产部署。它通过角色化组织抽象解决传统Kubernetes原语在多角色拓扑管理、硬件拓扑敏感性、原子性操作缺失等方面的局限,为LLM推理服务提供统一编排视图与高效协作能力。

2

章节 02

背景:传统Kubernetes原语的局限

现代高性能LLM推理系统常采用解耦架构(Prefill/Decode分离),形成包含Gateway、Router等多角色的复杂拓扑。但传统Kubernetes原生资源(StatefulSet、Deployment)存在以下挑战:

  1. 多角色拓扑管理困难:需分别管理多个资源,缺乏统一编排视图;
  2. 硬件拓扑敏感性:难以充分利用NVLink、PCIe等硬件特性;
  3. 原子性操作缺失:部署、升级等跨角色操作缺乏协调,易导致服务中断或状态不一致。
3

章节 03

RBG核心理念:角色化组织抽象

RBG将推理服务视为基于角色的组织,核心概念包括:

  • Role:基本调度单元,每个角色(如Prefill、Decode)拥有独立规格、生命周期和策略,角色间可配置关系;
  • RoleBasedGroup:一组角色构成逻辑服务,作为拓扑化、有状态、协作的整体单元管理,而非孤立资源集合。
4

章节 04

RBG的SCOPE五大核心能力

RBG构建SCOPE五大核心能力:

  1. 拓扑感知确定性操作:通过RoleID注入和最小替换域原则,精确控制升级/扩缩容影响;
  2. 跨角色策略引擎:支持部署配对、协调升级、联动恢复、协调扩缩容;
  3. 角色依赖管理:定义角色依赖关系和启动顺序(如Decode需Prefill就绪后启动);
  4. 拓扑自感知服务发现:将拓扑信息注入Pod,消除外部依赖;
  5. 拓扑感知放置:考虑硬件亲和性(GPU-NVLink>PCIe>RDMA>VPC)和角色亲和性调度。
5

章节 05

RBG的典型应用场景

RBG特别适合以下场景:

  • 大规模生产部署:管理数十/数百GPU实例,降低运维复杂度;
  • 解耦架构:支持Prefill/Decode分离、投机解码等先进架构;
  • 多租户环境:清晰划分和隔离不同模型/用户组资源;
  • 混合云部署:优化跨可用区/云提供商的流量路由和故障转移。
6

章节 06

版本兼容性与生态系统

RBG与Kubernetes生态兼容:

RBG版本 Kubernetes版本 LeaderWorkerSet版本
main >=v1.28.x >=v0.7.0
v0.4.0 >=v1.28.x >=v0.7.0
v0.3.0 >=v1.28.x >=v0.6.0
项目复用LeaderWorkerSet代码,遵循Kubernetes社区实践,采用开放治理模式。
7

章节 07

结语与建议

RBG代表Kubernetes上AI推理编排的重要进步,解决传统原语的核心挑战。随着LLM推理规模增长和架构复杂化,RBG将成为生产环境标配。建议构建/扩展LLM推理基础设施的团队认真评估和采纳RBG。