Zing 论坛

正文

RH+调度:针对PIM架构LLM推理的行命中优化新突破

本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间而非此前认为的nCCDAB,提出RH+调度策略通过简单的步长调整实现32个连续MAC操作在同一行内执行,获得8-12倍加速和74%能耗降低。

PIM架构存内计算LLM推理DRAM优化地址映射能效优化
发布时间 2026/06/04 07:33最近活动 2026/06/05 14:53预计阅读 2 分钟
RH+调度:针对PIM架构LLM推理的行命中优化新突破
1

章节 01

RH+调度:PIM架构LLM推理的行命中优化新突破(导读)

本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间(nRC)而非此前认为的nCCDAB,提出RH+调度策略通过简单步长调整实现32个连续MAC操作在同一行内执行,获得8-12倍加速、74%能耗降低及52倍EDP改进,且兼容现有HBM3规范无需硬件修改。

2

章节 02

背景:内存墙问题与PIM架构的崛起

大语言模型参数指数增长导致传统冯·诺依曼架构的"内存墙"瓶颈,存内计算(PIM)架构通过在DRAM内部执行MAC运算打破该瓶颈。HBM3已支持PIM功能,但此前研究误将nCCDAB视为主要瓶颈,本文发现nRC比nCCDAB大10-11倍才是真正瓶颈。

3

章节 03

问题根源:主机中心式地址交错的弊端

现有PIM系统采用主机中心式地址交错,将连续MAC操作分散到不同DRAM行,导致每次全银行MAC命令需触发预充电、激活等昂贵行切换操作,时间开销远超计算本身。

4

章节 04

RH+调度策略:简单步长调整的核心设计

RH+调度通过调整访问步长,让32个连续MAC操作保持在同一DRAM行内(适配HBM3银行32个MAC单元特性)。无需硬件修改或额外存储,兼容HBM3规范,利用行命中优势(一次激活后续无额外延迟)保持并行度。

5

章节 05

实验验证:RH+的性能与能效提升数据

周期精确模拟器验证结果:

  1. 8-12倍执行速度提升;
  2. 超过74%能耗降低;
  3. 52倍EDP(能量延迟积)改进。
6

章节 06

实践启示:PIM系统设计的关键方向

RH+带来的启示:

  1. 地址映射需结合工作负载访问模式定制;
  2. 软硬件协同设计至关重要;
  3. 周期精确模拟是发现核心瓶颈的必要手段。
7

章节 07

局限与未来研究方向

RH+的局限及未来探索:

  1. 扩展到多银行并行场景;
  2. 适配LLM推理中注意力计算等其他操作;
  3. 实际HBM3 PIM硬件上的验证。
8

章节 08

总结:RH+的价值与核心洞察

RH+通过精准识别真正瓶颈(nRC),以简单步长调整实现突破性优化。其成功证明:理解系统核心瓶颈比复杂优化更重要,简单方案往往能有效释放硬件潜力,为PIM架构LLM推理提供关键优化思路。