章节 01
【导读】CachePrune:隐私与效率兼顾的LLM推理KV缓存共享机制
本文介绍CachePrune,一种隐私感知的细粒度KV缓存共享机制,旨在解决LLM推理中跨用户KV缓存共享带来的侧信道泄露风险,同时实现性能提升。其核心是通过token级缓存管理,精准识别可复用的隐私无关片段,在保护隐私的前提下,将首token时间(TTFT)降低4.5倍,缓存命中率提升44%。该机制基于vLLM框架实现,适用于多租户服务、Agent工作流、检索增强生成(RAG)等场景,为LLM服务的隐私与效率平衡提供了实用解决方案。