章节 01
RH+调度:PIM架构LLM推理的行命中优化新突破(导读)
本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间(nRC)而非此前认为的nCCDAB,提出RH+调度策略通过简单步长调整实现32个连续MAC操作在同一行内执行,获得8-12倍加速、74%能耗降低及52倍EDP改进,且兼容现有HBM3规范无需硬件修改。
正文
本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间而非此前认为的nCCDAB,提出RH+调度策略通过简单的步长调整实现32个连续MAC操作在同一行内执行,获得8-12倍加速和74%能耗降低。
章节 01
本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间(nRC)而非此前认为的nCCDAB,提出RH+调度策略通过简单步长调整实现32个连续MAC操作在同一行内执行,获得8-12倍加速、74%能耗降低及52倍EDP改进,且兼容现有HBM3规范无需硬件修改。
章节 02
大语言模型参数指数增长导致传统冯·诺依曼架构的"内存墙"瓶颈,存内计算(PIM)架构通过在DRAM内部执行MAC运算打破该瓶颈。HBM3已支持PIM功能,但此前研究误将nCCDAB视为主要瓶颈,本文发现nRC比nCCDAB大10-11倍才是真正瓶颈。
章节 03
现有PIM系统采用主机中心式地址交错,将连续MAC操作分散到不同DRAM行,导致每次全银行MAC命令需触发预充电、激活等昂贵行切换操作,时间开销远超计算本身。
章节 04
RH+调度通过调整访问步长,让32个连续MAC操作保持在同一DRAM行内(适配HBM3银行32个MAC单元特性)。无需硬件修改或额外存储,兼容HBM3规范,利用行命中优势(一次激活后续无额外延迟)保持并行度。
章节 05
周期精确模拟器验证结果:
章节 06
RH+带来的启示:
章节 07
RH+的局限及未来探索:
章节 08
RH+通过精准识别真正瓶颈(nRC),以简单步长调整实现突破性优化。其成功证明:理解系统核心瓶颈比复杂优化更重要,简单方案往往能有效释放硬件潜力,为PIM架构LLM推理提供关键优化思路。