章节 01
导读:Hearth——Kubernetes上的声明式大模型推理服务框架
本文介绍开源项目Hearth,探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务,解决大模型推理的资源成本与运维挑战,同时分析云原生AI基础设施的技术演进趋势。核心亮点包括声明式配置简化运维、Scale-to-Zero优化成本、厂商中立设计避免锁定等。
正文
介绍Hearth开源项目,探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务,以及云原生AI基础设施的技术演进趋势。
章节 01
本文介绍开源项目Hearth,探讨如何在Kubernetes上实现声明式、自动扩缩容至零的大语言模型推理服务,解决大模型推理的资源成本与运维挑战,同时分析云原生AI基础设施的技术演进趋势。核心亮点包括声明式配置简化运维、Scale-to-Zero优化成本、厂商中立设计避免锁定等。
章节 02
随着大语言模型的广泛应用,推理服务面临高度波动的请求负载、严格延迟要求及昂贵GPU资源成本。传统常驻服务在流量低谷浪费资源,手动扩缩容难应对高峰。Kubernetes虽为云原生基础,但LLM推理的模型加载时间长、显存占用大、请求有状态性等特性,使其通用方案难以直接适用,需专门优化工具。
章节 03
声明式配置:通过Kubernetes自定义资源(CRD),用户只需描述模型服务目标状态(如模型来源、资源需求),Hearth处理底层部署、扩缩容等逻辑,简化运维。
Scale-to-Zero:无请求时缩容至零释放GPU资源,新请求触发快速扩容。虽冷启动有延迟,但非实时场景(异步批处理、开发测试)成本节省显著。
章节 04
采用Kubernetes Operator模式:
api/v1alpha1目录定义自定义资源,支持模型来源、推理引擎(vLLM/TensorRT-LLM等)、资源需求、扩缩容策略等配置。internal目录监听资源变化,协调实际与期望状态,包括解析配置、创建K8s资源、配置扩缩容规则等。charts/hearth提供Helm Chart简化安装,含RBAC权限、Webhook配置等。章节 05
强调vendor-neutral以避免锁定:
章节 06
实现Scale-to-Zero需解决:
章节 07
适用场景:开发测试环境(降低资源成本)、低频批处理任务(任务触发扩容)、多租户服务(资源按需分配)。
局限性:高并发低延迟生产服务仍需常驻实例,Hearth支持多种部署模式供用户选择。
章节 08
Hearth开源的价值: