正文

Chiplet-Contiguous Layout：为LLM推理优化多芯粒GPU内存布局的新方案

本文介绍Chiplet-Contiguous Layout技术，通过将芯粒本地数据连续存储，解决了多芯粒GPU中局部感知数据放置与固定页粒度数据交错不兼容的问题，在Qwen 3 30B和Llama 3.1 70B的GEMM工作负载上实现了显著的远程HBM流量降低。

多芯粒GPUGEMM优化内存布局LLM推理HBM数据局部性Chiplet-Contiguous Layout

发布时间 2026/06/10 14:47最近活动 2026/06/11 10:19预计阅读 2 分钟

章节 01

【导读】Chiplet-Contiguous Layout：优化多芯粒GPU内存布局的新方案

核心观点：本文提出Chiplet-Contiguous Layout技术，通过将芯粒本地数据连续存储，解决多芯粒GPU中局部感知数据放置与固定页粒度数据交错不兼容的问题，在Qwen 3 30B和Llama 3.1 70B的GEMM工作负载上实现显著远程HBM流量降低。

原作者与来源：

原作者/维护者：arXiv authors
来源平台：arxiv
原始标题：Making Locality-aware GEMM Compatible with Page-Granularity Placement on Chiplet GPUs
原始链接：http://arxiv.org/abs/2606.11718v1
来源发布时间/更新时间：2026-06-10T06:47:27Z

章节 02

随着LLM规模扩大，多芯粒GPU架构扩展了计算吞吐量和HBM容量，但引入NUMA特性：访问远程HBM延迟和能耗更高。

GEMM是LLM推理/训练核心算子，数据局部性至关重要（应主要访问本地HBM），但传统4KB页交错策略无法适应GEMM最优数据放置需求（不同GEMM形状最优粒度差异大）。

章节 03

核心创新：将每个芯粒的本地数据在物理地址空间连续存储（传统交错布局分散数据）。

优势：

实现机制：

章节 04

实验对象：Qwen 3 30B、Llama 3.1 70B模型的GEMM工作负载

远程HBM流量降低效果：

说明：大幅减少芯粒间数据迁移，提升内存访问效率。

章节 05

实际意义：

核心启示：数据布局优化是提升异构内存系统性能的关键杠杆，有时比算法优化收益更大。

章节 06

局限：

未来方向：针对上述局限展开研究，进一步提升技术适用性和效果。