正文

DUAL-BLADE：边缘设备上的双路径KV缓存卸载框架

本文介绍DUAL-BLADE，一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径，绕过文件系统开销，实现低延迟直接存储访问，在预填充阶段降低33.1%延迟，解码阶段降低42.4%延迟。

KV缓存边缘AILLM推理NVMe内存卸载边缘计算存储优化低延迟推理

发布时间 2026/04/29 19:44最近活动 2026/04/30 10:27预计阅读 2 分钟

章节 01

DUAL-BLADE：边缘设备KV缓存卸载框架导读

本文介绍DUAL-BLADE，一个面向边缘AI系统的双路径KV缓存驻留框架。该框架通过动态分配KV张量到页缓存路径或NVMe直访路径，绕过文件系统开销，实现低延迟直接存储访问，在预填充阶段降低33.1%延迟，解码阶段降低42.4%延迟，旨在解决边缘设备LLM推理中的内存资源有限问题。

章节 02

大型语言模型向边缘设备部署时，边缘设备内存资源有限，KV缓存（Key-Value Cache）是内存消耗大户，长上下文场景下常超可用内存。传统基于文件的卸载设计依赖内核页缓存，在内存压力下导致缓存抖动、不可预测延迟和高软件开销，边缘环境中问题更突出。

章节 03

DUAL-BLADE核心思想是根据运行时内存可用性动态选择最优访问路径：内存充足时使用页缓存路径（利用OS成熟缓存机制）；内存紧张时切换到NVMe直访路径（绕过文件系统，将KV张量直接映射到连续LBA区域，实现低开销直接存储访问），灵活适应资源状况。

章节 04

绕过文件系统的直接访问：消除路径解析、权限检查、元数据管理、页缓存替换策略等开销；2. 连续LBA映射：实现顺序读取优化、减少寻道时间、简化地址计算；3. 自适应流水线并行：将存储I/O与GPU DMA操作重叠，动态调整流水线深度，隐藏I/O延迟提升吞吐量。

章节 05

评估显示：预填充阶段延迟降低高达33.1%，解码阶段延迟降低高达42.4%；SSD利用率提升2.2倍；这些收益在多种内存预算配置下保持稳定，适合边缘部署。

章节 06

降低硬件成本：让更低配置硬件运行LLM成为可能；2. 改善用户体验：更快首次token生成和流畅流式输出，利好延迟敏感应用；3. 延长设备续航：高效I/O减少存储活跃时间，降低功耗。

章节 07

存储设备选择：建议用高并发I/O和低延迟的NVMe SSD；2. 内存与存储权衡：延迟敏感保留更多内存，成本敏感积极卸载；3. 集成现有系统：可与vLLM、TensorRT-LLM等推理框架集成，模块化设计易引入优化。

章节 08

当前局限：主要支持单一NVMe设备；未来方向：多存储设备环境下KV缓存分布优化、KV压缩与卸载结合、基于访问模式的预测性预取。