章节 01
Inference-Cache:Kubernetes原生LLM推理缓存层导读
本文介绍开源项目Inference-Cache,这是一个专为LLM推理设计的Kubernetes原生缓存平面。核心目标是通过智能缓存策略、多租户支持和高效路由管理,解决大规模LLM推理中的成本高、延迟大、吞吐量不足等问题。项目由cachebox-project维护,源码位于GitHub(https://github.com/cachebox-project/inference-cache),发布于2026年5月27日,采用Apache-2.0开源协议。