Zing 论坛

正文

DAK:面向LLM推理的直接访问式GPU内存卸载框架

DAK框架通过直接GPU访问远程内存替代预取策略,利用Tensor Memory Accelerator实现异步权重和KV缓存加载,在NVLink-C2C上实现3倍性能提升。

GPU memory offloadingLLM inferenceTensor Memory AcceleratorNVLink-C2Ctiered memoryKV cachedirect memory accessinference optimization
发布时间 2026/04/29 03:30最近活动 2026/04/30 10:52预计阅读 2 分钟
DAK:面向LLM推理的直接访问式GPU内存卸载框架
1

章节 01

DAK框架导读:面向LLM推理的直接访问式GPU内存卸载方案

DAK框架通过直接GPU访问远程内存替代预取策略,利用Tensor Memory Accelerator(TMA)实现异步权重和KV缓存加载,在NVLink-C2C上实现3倍性能提升,解决LLM推理中的内存瓶颈问题。

2

章节 02

LLM推理的内存瓶颈与预取策略的缺陷

大语言模型推理面临GPU内存容量和带宽约束,分层内存架构将部分数据卸载到远程内存层,但现有预取策略存在三大隐患:HBM争用导致带宽碎片化、内存容量浪费限制序列长度和并发量、预取与计算串行引入流水线气泡。

3

章节 03

DAK的核心创新:直接访问远程内存与TMA重新利用

DAK提出让GPU直接访问远程内存的架构转变,重新利用NVIDIA Hopper架构的TMA硬件单元:异步加载远程权重和KV缓存到SMEM、绕过HBM中转避免争用、加载与计算完全重叠消除流水线气泡。

4

章节 04

DAK的优化策略:卸载比例决策与拥塞控制

DAK通过贪婪算法确定算子最优卸载比例(考虑计算强度、数据复用模式、互连带宽);通过主动拥塞控制动态调整访问速率,利用TMA多播消除数据并行场景下的重复读取带宽浪费。

5

章节 05

DAK性能评估:接近理论最优的提升效果

在NVLink-C2C系统上实现最高3倍性能提升,PCIe系统上实现1.8倍加速;聚合系统带宽利用率接近理论上限,远高于预取策略不足50%的利用率。

6

章节 06

DAK对LLM推理部署的启示与意义

DAK提供内存容量扩展新范式(用远程内存减少高端GPU需求)、突破长序列处理瓶颈(动态加载KV缓存)、验证异构计算潜力;挑战预取固有观念,为成本敏感的推理服务提供优化路径。

7

章节 07

DAK的局限与未来研究方向

局限:依赖Hopper架构TMA、软件栈复杂、功耗特性待研究;未来方向:扩展到多节点RDMA场景、结合预测性加载优化延迟、探索CXL 3.0内存池化协同优化。