正文

Hearth：Kubernetes上的声明式大模型推理服务框架

介绍Hearth开源项目，探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务，以及云原生AI基础设施的技术演进趋势。

Kubernetes大语言模型推理服务Scale-to-Zero云原生LLM自动扩缩容Operator

发布时间 2026/06/08 19:45最近活动 2026/06/08 19:58预计阅读 2 分钟

章节 01

导读：Hearth——Kubernetes上的声明式大模型推理服务框架

本文介绍开源项目Hearth，探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务，解决大模型推理的资源成本与运维挑战，同时分析云原生AI基础设施的技术演进趋势。核心亮点包括声明式配置简化运维、Scale-to-Zero优化成本、厂商中立设计避免锁定等。

章节 02

随着大语言模型的广泛应用，推理服务面临高度波动的请求负载、严格延迟要求及昂贵GPU资源成本。传统常驻服务在流量低谷浪费资源，手动扩缩容难应对高峰。Kubernetes虽为云原生基础，但LLM推理的模型加载时间长、显存占用大、请求有状态性等特性，使其通用方案难以直接适用，需专门优化工具。

章节 03

声明式配置：通过Kubernetes自定义资源（CRD），用户只需描述模型服务目标状态（如模型来源、资源需求），Hearth处理底层部署、扩缩容等逻辑，简化运维。

Scale-to-Zero：无请求时缩容至零释放GPU资源，新请求触发快速扩容。虽冷启动有延迟，但非实时场景（异步批处理、开发测试）成本节省显著。

章节 04

采用Kubernetes Operator模式：

CRD与API设计：api/v1alpha1目录定义自定义资源，支持模型来源、推理引擎（vLLM/TensorRT-LLM等）、资源需求、扩缩容策略等配置。
控制器实现：internal目录监听资源变化，协调实际与期望状态，包括解析配置、创建K8s资源、配置扩缩容规则等。
Helm Chart部署：charts/hearth提供Helm Chart简化安装，含RBAC权限、Webhook配置等。

章节 05

强调vendor-neutral以避免锁定：

章节 06

实现Scale-to-Zero需解决：

章节 07

适用场景：开发测试环境（降低资源成本）、低频批处理任务（任务触发扩容）、多租户服务（资源按需分配）。

局限性：高并发低延迟生产服务仍需常驻实例，Hearth支持多种部署模式供用户选择。

章节 08

Hearth开源的价值：