# Chiplet-Contiguous Layout：为LLM推理优化多芯粒GPU内存布局的新方案

> 本文介绍Chiplet-Contiguous Layout技术，通过将芯粒本地数据连续存储，解决了多芯粒GPU中局部感知数据放置与固定页粒度数据交错不兼容的问题，在Qwen 3 30B和Llama 3.1 70B的GEMM工作负载上实现了显著的远程HBM流量降低。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-10T06:47:27.000Z
- 最近活动: 2026-06-11T02:19:34.771Z
- 热度: 120.5
- 关键词: 多芯粒GPU, GEMM优化, 内存布局, LLM推理, HBM, 数据局部性, Chiplet-Contiguous Layout
- 页面链接: https://www.zingnex.cn/forum/thread/chiplet-contiguous-layout-llmgpu
- Canonical: https://www.zingnex.cn/forum/thread/chiplet-contiguous-layout-llmgpu
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Making Locality-aware GEMM Compatible with Page-Granularity Placement on Chiplet GPUs
- 原始链接：http://arxiv.org/abs/2606.11718v1
- 来源发布时间/更新时间：2026-06-10T06:47:27Z

## 背景：多芯粒GPU的内存挑战

随着大语言模型（LLM）规模的不断扩大，对计算资源的需求也在急剧增长。多芯粒GPU（Multi-chiplet GPU）架构通过将多个芯粒（chiplet）集成在同一封装内，有效扩展了计算吞吐量和高带宽内存（HBM）容量。然而，这种架构引入了非均匀内存访问（NUMA）特性：每个芯粒拥有自己的本地HBM，访问远程芯粒的HBM会产生更高的延迟和能耗。

在通用矩阵乘法（GEMM）这一LLM推理和训练的核心算子中，数据局部性对性能至关重要。理想情况下，每个芯粒应该主要访问其本地HBM中的数据，以最小化远程内存流量。然而，传统的页粒度数据交错（page-granularity interleaving）策略——例如标准的4KB页交错——往往无法适应GEMM工作负载的最优数据放置需求，因为不同GEMM形状的最优数据粒度差异很大。

## Chiplet-Contiguous Layout的核心思想

本文提出的Chiplet-Contiguous Layout是一种全局内存布局方案，其核心创新在于：**将每个芯粒的本地数据在物理地址空间中连续存储**。这与传统的交错布局形成鲜明对比——传统布局将数据均匀分散在所有芯粒的HBM中，而Chiplet-Contiguous Layout确保特定芯粒所需的数据集中在连续的地址范围内。

这种布局的优势在于：

1. **兼容性**：无需修改操作系统或硬件即可实现，具有良好的部署友好性
2. **灵活性**：适用于各种LLM GEMM形状，不受固定页粒度限制
3. **局部性感知**：天然支持数据与计算芯粒的局部性匹配

## 技术实现与工作机制

Chiplet-Contiguous Layout的实现依赖于对数据布局的重新组织。在传统的多芯粒系统中，数据通常按照固定大小的页（如4KB）在多个芯粒间交错分布。这种设计虽然简化了内存管理，但忽略了数据访问模式的空间局部性。

Chiplet-Contiguous Layout通过以下方式优化数据放置：

**数据分区策略**：将GEMM操作涉及的矩阵数据按照芯粒数量进行逻辑分区，每个芯粒负责处理特定的数据子集。这些子集在物理内存中连续存储，而非分散交错。

**地址映射优化**：通过调整虚拟地址到物理地址的映射关系，确保每个芯粒访问的数据尽可能位于其本地HBM。这种映射可以在不修改硬件的情况下，通过CUDA内存分配API或自定义内存管理器实现。

**与现有系统的集成**：由于Chiplet-Contiguous Layout是一种纯软件层面的内存布局优化，它可以无缝集成到现有的深度学习框架（如PyTorch、TensorFlow）中，无需对底层硬件或操作系统内核进行修改。

## 实验结果与性能分析

研究者在代表性LLM推理和训练GEMM工作负载上评估了Chiplet-Contiguous Layout的效果，测试对象包括Qwen 3 30B和Llama 3.1 70B模型。

### 远程HBM流量降低

与4KB页交错相比，Chiplet-Contiguous Layout实现了显著的远程HBM流量降低：

- **Qwen 3 30B**：远程HBM流量平均降低**24.7倍**
- **Llama 3.1 70B**：远程HBM流量平均降低**19.2倍**

这一结果说明，通过优化数据布局，可以大幅减少芯粒间的数据迁移，从而提升内存访问效率。

### 与粗粒度局部感知放置的对比

即使与粗粒度的局部感知放置策略相比，Chiplet-Contiguous Layout仍然表现出优势：

- **Qwen 3 30B**：远程HBM流量降低**4.1倍**
- **Llama 3.1 70B**：远程HBM流量降低**2.1倍**

这表明Chiplet-Contiguous Layout在细粒度的数据放置优化方面具有独特价值，能够超越传统的粗粒度优化方法。

## 实际意义与应用前景

Chiplet-Contiguous Layout的提出具有重要的实际意义：

**对AI基础设施的影响**：随着LLM模型规模持续增长，多芯粒GPU架构将成为主流。Chiplet-Contiguous Layout为这种架构下的高效推理提供了关键优化手段，有望降低推理成本、提升服务响应速度。

**部署友好性**：由于无需硬件或操作系统修改，该技术可以快速应用于现有的GPU集群。对于使用NVIDIA Hopper及后续架构的数据中心，这一优化具有直接的实用价值。

**跨模型泛化**：实验表明该技术在Qwen和Llama系列模型上均有效，说明其具有良好的泛化能力，适用于不同的Transformer架构和模型规模。

## 局限与未来方向

尽管Chiplet-Contiguous Layout取得了显著成果，但仍有一些值得关注的方面：

1. **通用性验证**：当前实验主要集中在GEMM操作，对于其他类型的算子（如注意力机制中的稀疏计算）的适用性需要进一步验证
2. **动态工作负载**：对于动态变化的批处理大小或序列长度，如何自适应调整数据布局是一个开放问题
3. **与编译器优化的协同**：如何与GPU编译器的自动优化（如算子融合、内存复用）协同工作，值得深入研究

## 总结与启示

Chiplet-Contiguous Layout通过简洁而有效的内存布局优化，解决了多芯粒GPU中局部性感知与页粒度放置之间的根本矛盾。其核心启示在于：**数据布局优化是提升异构内存系统性能的关键杠杆**，有时甚至比算法优化本身带来更大的收益。

对于LLM推理从业者而言，这一工作提示我们关注底层硬件特性与上层数据布局的匹配。在追求模型架构创新的同时，基础设施层面的优化同样能够带来显著的性能提升。
