正文

DAK：面向LLM推理的直接访问式GPU内存卸载框架

DAK框架通过直接GPU访问远程内存替代预取策略，利用Tensor Memory Accelerator实现异步权重和KV缓存加载，在NVLink-C2C上实现3倍性能提升。

GPU memory offloadingLLM inferenceTensor Memory AcceleratorNVLink-C2Ctiered memoryKV cachedirect memory accessinference optimization

发布时间 2026/04/29 03:30最近活动 2026/04/30 10:52预计阅读 2 分钟

章节 01

DAK框架导读：面向LLM推理的直接访问式GPU内存卸载方案

DAK框架通过直接GPU访问远程内存替代预取策略，利用Tensor Memory Accelerator（TMA）实现异步权重和KV缓存加载，在NVLink-C2C上实现3倍性能提升，解决LLM推理中的内存瓶颈问题。

章节 02

大语言模型推理面临GPU内存容量和带宽约束，分层内存架构将部分数据卸载到远程内存层，但现有预取策略存在三大隐患：HBM争用导致带宽碎片化、内存容量浪费限制序列长度和并发量、预取与计算串行引入流水线气泡。

章节 03

DAK提出让GPU直接访问远程内存的架构转变，重新利用NVIDIA Hopper架构的TMA硬件单元：异步加载远程权重和KV缓存到SMEM、绕过HBM中转避免争用、加载与计算完全重叠消除流水线气泡。

章节 04

DAK通过贪婪算法确定算子最优卸载比例（考虑计算强度、数据复用模式、互连带宽）；通过主动拥塞控制动态调整访问速率，利用TMA多播消除数据并行场景下的重复读取带宽浪费。

章节 05

在NVLink-C2C系统上实现最高3倍性能提升，PCIe系统上实现1.8倍加速；聚合系统带宽利用率接近理论上限，远高于预取策略不足50%的利用率。

章节 06

DAK提供内存容量扩展新范式（用远程内存减少高端GPU需求）、突破长序列处理瓶颈（动态加载KV缓存）、验证异构计算潜力；挑战预取固有观念，为成本敏感的推理服务提供优化路径。

章节 07

局限：依赖Hopper架构TMA、软件栈复杂、功耗特性待研究；未来方向：扩展到多节点RDMA场景、结合预测性加载优化延迟、探索CXL 3.0内存池化协同优化。