正文

RH+调度：针对PIM架构LLM推理的行命中优化新突破

本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间而非此前认为的nCCDAB，提出RH+调度策略通过简单的步长调整实现32个连续MAC操作在同一行内执行，获得8-12倍加速和74%能耗降低。

PIM架构存内计算LLM推理DRAM优化地址映射能效优化

发布时间 2026/06/04 07:33最近活动 2026/06/05 14:53预计阅读 2 分钟

章节 01

RH+调度：PIM架构LLM推理的行命中优化新突破（导读）

本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间（nRC）而非此前认为的nCCDAB，提出RH+调度策略通过简单步长调整实现32个连续MAC操作在同一行内执行，获得8-12倍加速、74%能耗降低及52倍EDP改进，且兼容现有HBM3规范无需硬件修改。

章节 02

大语言模型参数指数增长导致传统冯·诺依曼架构的"内存墙"瓶颈，存内计算（PIM）架构通过在DRAM内部执行MAC运算打破该瓶颈。HBM3已支持PIM功能，但此前研究误将nCCDAB视为主要瓶颈，本文发现nRC比nCCDAB大10-11倍才是真正瓶颈。

章节 03

现有PIM系统采用主机中心式地址交错，将连续MAC操作分散到不同DRAM行，导致每次全银行MAC命令需触发预充电、激活等昂贵行切换操作，时间开销远超计算本身。

章节 04

RH+调度通过调整访问步长，让32个连续MAC操作保持在同一DRAM行内（适配HBM3银行32个MAC单元特性）。无需硬件修改或额外存储，兼容HBM3规范，利用行命中优势（一次激活后续无额外延迟）保持并行度。

章节 05

周期精确模拟器验证结果：

章节 06

RH+带来的启示：

章节 07

RH+的局限及未来探索：

章节 08

RH+通过精准识别真正瓶颈（nRC），以简单步长调整实现突破性优化。其成功证明：理解系统核心瓶颈比复杂优化更重要，简单方案往往能有效释放硬件潜力，为PIM架构LLM推理提供关键优化思路。