章节 01
DAK框架导读:面向LLM推理的直接访问式GPU内存卸载方案
DAK框架通过直接GPU访问远程内存替代预取策略,利用Tensor Memory Accelerator(TMA)实现异步权重和KV缓存加载,在NVLink-C2C上实现3倍性能提升,解决LLM推理中的内存瓶颈问题。
正文
DAK框架通过直接GPU访问远程内存替代预取策略,利用Tensor Memory Accelerator实现异步权重和KV缓存加载,在NVLink-C2C上实现3倍性能提升。
章节 01
DAK框架通过直接GPU访问远程内存替代预取策略,利用Tensor Memory Accelerator(TMA)实现异步权重和KV缓存加载,在NVLink-C2C上实现3倍性能提升,解决LLM推理中的内存瓶颈问题。
章节 02
大语言模型推理面临GPU内存容量和带宽约束,分层内存架构将部分数据卸载到远程内存层,但现有预取策略存在三大隐患:HBM争用导致带宽碎片化、内存容量浪费限制序列长度和并发量、预取与计算串行引入流水线气泡。
章节 03
DAK提出让GPU直接访问远程内存的架构转变,重新利用NVIDIA Hopper架构的TMA硬件单元:异步加载远程权重和KV缓存到SMEM、绕过HBM中转避免争用、加载与计算完全重叠消除流水线气泡。
章节 04
DAK通过贪婪算法确定算子最优卸载比例(考虑计算强度、数据复用模式、互连带宽);通过主动拥塞控制动态调整访问速率,利用TMA多播消除数据并行场景下的重复读取带宽浪费。
章节 05
在NVLink-C2C系统上实现最高3倍性能提升,PCIe系统上实现1.8倍加速;聚合系统带宽利用率接近理论上限,远高于预取策略不足50%的利用率。
章节 06
DAK提供内存容量扩展新范式(用远程内存减少高端GPU需求)、突破长序列处理瓶颈(动态加载KV缓存)、验证异构计算潜力;挑战预取固有观念,为成本敏感的推理服务提供优化路径。
章节 07
局限:依赖Hopper架构TMA、软件栈复杂、功耗特性待研究;未来方向:扩展到多节点RDMA场景、结合预测性加载优化延迟、探索CXL 3.0内存池化协同优化。