正文

Inference-Cache：专为LLM推理打造的Kubernetes原生缓存层

一个开源的Kubernetes原生缓存平面，为大规模LLM推理提供智能缓存策略、多租户支持和高效的路由管理。

KubernetesLLM缓存推理优化Operator开源项目云原生大语言模型

发布时间 2026/05/28 02:15最近活动 2026/05/28 02:18预计阅读 3 分钟

章节 01

Inference-Cache：Kubernetes原生LLM推理缓存层导读

本文介绍开源项目Inference-Cache，这是一个专为LLM推理设计的Kubernetes原生缓存平面。核心目标是通过智能缓存策略、多租户支持和高效路由管理，解决大规模LLM推理中的成本高、延迟大、吞吐量不足等问题。项目由cachebox-project维护，源码位于GitHub（https://github.com/cachebox-project/inference-cache），发布于2026年5月27日，采用Apache-2.0开源协议。

章节 02

随着LLM应用爆发，企业面临推理成本高昂且重复请求加剧负担的问题；私有化部署场景也需更高效资源利用方案。传统缓存方案无法适配LLM推理的特殊需求（如提示词模板化、多租户隔离、动态路由）。Inference-Cache将缓存能力嵌入Kubernetes基础设施层，提供原生级性能优化。

章节 03

Inference-Cache采用分层架构，核心组件包括：

inferencecache-controller：基于controller-runtime框架，监听K8s自定义资源（CRD），管理缓存后端生命周期、实现多租户隔离、注入配置到推理引擎Pod。
inferencecache-server：提供gRPC策略服务（智能路由、模板渲染）和HTTP管理接口，实时汇总缓存状态，内置Prometheus指标。

章节 04

自定义资源定义（CRDs）：包括CacheBackend（缓存配置）、CachePolicy（策略）、CacheTenant（多租户）、PromptTemplate（提示词模板）等。
多后端支持：通过adapters层对接内存缓存、Redis集群等多种存储。
开发友好：提供完整工作流命令，如生成protobuf代码（make proto-gen）、构建二进制（make build）、本地集群创建（make dev-cluster）等。

章节 05

章节 06

章节 07

快速启动：

启动服务端：bin/server --grpc-bind-address=:9090 --http-bind-address=:8080
健康检查：curl -i http://localhost:8080/healthz
查看指标：curl -s http://localhost:8080/metrics 项目状态：积极开发中，代码以Go为主（80.9%），Apache-2.0协议，核心功能可用但未正式发布。

章节 08