Zing 论坛

正文

Hearth:Kubernetes上的声明式大模型推理服务框架

介绍Hearth开源项目,探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务,以及云原生AI基础设施的技术演进趋势。

Kubernetes大语言模型推理服务Scale-to-Zero云原生LLM自动扩缩容Operator
发布时间 2026/06/08 19:45最近活动 2026/06/08 19:58预计阅读 2 分钟
Hearth:Kubernetes上的声明式大模型推理服务框架
1

章节 01

导读:Hearth——Kubernetes上的声明式大模型推理服务框架

本文介绍开源项目Hearth,探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务,解决大模型推理的资源成本与运维挑战,同时分析云原生AI基础设施的技术演进趋势。核心亮点包括声明式配置简化运维、Scale-to-Zero优化成本、厂商中立设计避免锁定等。

2

章节 02

大模型推理的基础设施挑战

随着大语言模型的广泛应用,推理服务面临高度波动的请求负载、严格延迟要求及昂贵GPU资源成本。传统常驻服务在流量低谷浪费资源,手动扩缩容难应对高峰。Kubernetes虽为云原生基础,但LLM推理的模型加载时间长、显存占用大、请求有状态性等特性,使其通用方案难以直接适用,需专门优化工具。

3

章节 03

Hearth的核心理念:声明式与Scale-to-Zero

声明式配置:通过Kubernetes自定义资源(CRD),用户只需描述模型服务目标状态(如模型来源、资源需求),Hearth处理底层部署、扩缩容等逻辑,简化运维。

Scale-to-Zero:无请求时缩容至零释放GPU资源,新请求触发快速扩容。虽冷启动有延迟,但非实时场景(异步批处理、开发测试)成本节省显著。

4

章节 04

架构设计与技术选型

采用Kubernetes Operator模式:

  • CRD与API设计api/v1alpha1目录定义自定义资源,支持模型来源、推理引擎(vLLM/TensorRT-LLM等)、资源需求、扩缩容策略等配置。
  • 控制器实现internal目录监听资源变化,协调实际与期望状态,包括解析配置、创建K8s资源、配置扩缩容规则等。
  • Helm Chart部署charts/hearth提供Helm Chart简化安装,含RBAC权限、Webhook配置等。
5

章节 05

厂商中立的设计哲学

强调vendor-neutral以避免锁定:

  • 模型格式中立:支持Hugging Face Transformers、GGUF、ONNX等。
  • 推理引擎中立:可切换vLLM、TensorRT-LLM、TGI等。
  • 基础设施中立:基于标准K8s API,可运行于公有云、私有云或边缘环境。
6

章节 06

Scale-to-Zero的技术挑战

实现Scale-to-Zero需解决:

  • 冷启动延迟:通过模型缓存、分层加载、预加载守护进程、请求排队批处理缓解。
  • 请求路由:用Knative Serving等代理接收请求并触发扩容。
  • 状态管理:设计状态持久化策略,确保扩容后恢复对话历史、KV缓存等上下文。
7

章节 07

适用场景与局限性

适用场景:开发测试环境(降低资源成本)、低频批处理任务(任务触发扩容)、多租户服务(资源按需分配)。

局限性:高并发低延迟生产服务仍需常驻实例,Hearth支持多种部署模式供用户选择。

8

章节 08

开源意义与社区价值

Hearth开源的价值:

  1. 提供生产级参考实现,为团队评估技术方案提供起点与基准。
  2. 开源模式汇集社区最佳实践,形成全面解决方案。
  3. 代表云原生AI方向,将AI工作负载视为一等公民,提升自动化、可观测性与可移植性。