Zing 论坛

正文

Chiplet-Contiguous Layout:为LLM推理优化多芯粒GPU内存布局的新方案

本文介绍Chiplet-Contiguous Layout技术,通过将芯粒本地数据连续存储,解决了多芯粒GPU中局部感知数据放置与固定页粒度数据交错不兼容的问题,在Qwen 3 30B和Llama 3.1 70B的GEMM工作负载上实现了显著的远程HBM流量降低。

多芯粒GPUGEMM优化内存布局LLM推理HBM数据局部性Chiplet-Contiguous Layout
发布时间 2026/06/10 14:47最近活动 2026/06/11 10:19预计阅读 2 分钟
Chiplet-Contiguous Layout:为LLM推理优化多芯粒GPU内存布局的新方案
1

章节 01

【导读】Chiplet-Contiguous Layout:优化多芯粒GPU内存布局的新方案

核心观点:本文提出Chiplet-Contiguous Layout技术,通过将芯粒本地数据连续存储,解决多芯粒GPU中局部感知数据放置与固定页粒度数据交错不兼容的问题,在Qwen 3 30B和Llama 3.1 70B的GEMM工作负载上实现显著远程HBM流量降低。

原作者与来源:

  • 原作者/维护者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:Making Locality-aware GEMM Compatible with Page-Granularity Placement on Chiplet GPUs
  • 原始链接:http://arxiv.org/abs/2606.11718v1
  • 来源发布时间/更新时间:2026-06-10T06:47:27Z
2

章节 02

背景:多芯粒GPU的内存挑战

随着LLM规模扩大,多芯粒GPU架构扩展了计算吞吐量和HBM容量,但引入NUMA特性:访问远程HBM延迟和能耗更高。

GEMM是LLM推理/训练核心算子,数据局部性至关重要(应主要访问本地HBM),但传统4KB页交错策略无法适应GEMM最优数据放置需求(不同GEMM形状最优粒度差异大)。

3

章节 03

方法:Chiplet-Contiguous Layout的核心思想与实现

核心创新:将每个芯粒的本地数据在物理地址空间连续存储(传统交错布局分散数据)。

优势:

  1. 兼容性:无需修改OS或硬件
  2. 灵活性:适用于各种LLM GEMM形状
  3. 局部性感知:天然匹配数据与计算芯粒

实现机制:

  • 数据分区:按芯粒数量逻辑分区矩阵数据,子集连续存储
  • 地址映射:调整虚拟到物理地址映射,确保本地访问
  • 集成:纯软件优化,可无缝集成到PyTorch/TensorFlow等框架
4

章节 04

证据:实验结果与性能分析

实验对象:Qwen 3 30B、Llama 3.1 70B模型的GEMM工作负载

远程HBM流量降低效果:

  • 与4KB页交错相比:Qwen 3 30B降24.7倍,Llama 3.1 70B降19.2倍
  • 与粗粒度局部感知放置相比:Qwen 3 30B降4.1倍,Llama 3.1 70B降2.1倍

说明:大幅减少芯粒间数据迁移,提升内存访问效率。

5

章节 05

结论:实际意义与核心启示

实际意义:

  1. AI基础设施:为多芯粒GPU高效推理提供关键优化,降低成本、提升响应速度
  2. 部署友好:无需硬件/OS修改,可快速应用于现有GPU集群(如NVIDIA Hopper及后续架构)
  3. 跨模型泛化:在Qwen和Llama系列有效,适用于不同Transformer架构和规模

核心启示:数据布局优化是提升异构内存系统性能的关键杠杆,有时比算法优化收益更大。

6

章节 06

建议:局限与未来方向

局限:

  1. 通用性:当前仅验证GEMM操作,其他算子(如注意力稀疏计算)适用性需验证
  2. 动态工作负载:动态批处理/序列长度下自适应布局是开放问题
  3. 编译器协同:与GPU编译器自动优化(算子融合、内存复用)协同需深入研究

未来方向:针对上述局限展开研究,进一步提升技术适用性和效果。