# RH+调度：针对PIM架构LLM推理的行命中优化新突破

> 本文揭示PIM架构LLM推理的真正瓶颈在于DRAM行周期时间而非此前认为的nCCDAB，提出RH+调度策略通过简单的步长调整实现32个连续MAC操作在同一行内执行，获得8-12倍加速和74%能耗降低。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-03T23:33:30.000Z
- 最近活动: 2026-06-05T06:53:39.403Z
- 热度: 124.7
- 关键词: PIM架构, 存内计算, LLM推理, DRAM优化, 地址映射, 能效优化
- 页面链接: https://www.zingnex.cn/forum/thread/rh-pimllm
- Canonical: https://www.zingnex.cn/forum/thread/rh-pimllm
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/团队**：论文作者团队（arXiv投稿）
- **来源平台**：arXiv
- **原文标题**：RH+: Row-Hit-Optimized Scheduling for PIM-based LLM Inference
- **原文链接**：<http://arxiv.org/abs/2606.05511v1>
- **发布时间**：2026年6月3日

---

## 背景：内存墙与PIM架构的崛起

大语言模型的参数规模呈指数级增长，而传统冯·诺依曼架构中CPU/GPU与DRAM之间的数据搬运已成为严重的性能瓶颈——这就是著名的"内存墙"问题。存内计算（Processing-in-Memory, PIM）架构通过在DRAM内部直接执行乘加运算（MAC），有望从根本上打破这一瓶颈。

HBM3（高带宽内存3代）标准已经开始支持PIM功能，允许在内存银行内部直接进行计算。对于LLM推理而言，这意味着权重矩阵可以就地计算，无需在CPU/GPU和内存之间来回搬运。

然而，PIM架构的潜力能否充分释放，很大程度上取决于调度策略的设计。这正是本文研究的出发点。

---

## 现有认知的误区：nCCDAB真的是瓶颈吗？

此前针对PIM架构的研究普遍认为，功耗约束时序参数nCCDAB是主要性能瓶颈。nCCDAB定义了在全银行MAC操作之间的最小时间间隔，研究者据此设计了各种优化调度策略。

但本文研究团队通过深入分析发现，**这一认知存在根本性偏差**。

### 关键发现：真正的瓶颈是nRC

对于自回归解码中占主导地位的GEMV（矩阵-向量乘法）操作，研究团队测量发现：

**DRAM行周期时间（nRC）比nCCDAB大10到11倍**。

这意味着什么？当nRC远大于nCCDAB时，nCCDAB实际上被完全掩盖了——即使优化nCCDAB也无法带来性能提升，因为系统总是在等待DRAM行周期完成。

这一发现颠覆了此前的优化方向，也为新的调度策略指明了道路。

---

## 问题根源：主机中心式的地址交错

为什么nRC会成为瓶颈？研究团队追溯到地址映射策略。

现有的PIM系统继承了传统的主机中心式地址交错（host-centric address interleaving），这种设计将连续的MAC操作分散到不同的DRAM行中。结果就是：**每个全银行MAC命令都不得不访问不同的DRAM行**，触发昂贵的行激活和预充电操作。

具体来说，当一个GEMV操作需要访问权重矩阵的连续元素时，由于地址交错，这些访问被映射到不同的物理行。每次行切换都需要：

1. 关闭当前行（预充电）
2. 激活新行
3. 等待行稳定
4. 执行读取/计算

这一系列操作的时间开销远超计算本身，严重拖慢了整体性能。

---

## RH+调度：简单的步长调整，巨大的性能提升

针对上述问题，研究团队提出了RH+（Row-Hit Plus）调度策略。其核心思想异常简洁：**通过调整访问步长，让32个连续的MAC操作保持在同一个DRAM行内**。

### 技术细节

RH+不需要复杂的硬件修改，也不需要额外的存储资源。它只是一个简单的地址映射步长调整：

- 传统交错：连续MAC操作访问不同行
- RH+调度：重新计算步长，使32个连续操作落在同一行

为什么是32个？这是HBM3银行结构的特性决定的——每个银行有32个MAC单元，通过合理安排访问模式，可以让这些单元在同一行内连续工作。

### 为什么有效？

RH+的有效性源于对DRAM物理特性的充分利用：

**行命中优势**：当访问同一行内的不同列时，只需一次行激活，后续访问几乎没有额外延迟。

**并行度保持**：32个MAC单元仍然并行工作，没有牺牲计算并行度。

**硬件兼容性**：RH+完全兼容现有HBM3规范，无需修改内存控制器硬件。

---

## 实验验证：惊人的性能数据

研究团队使用周期精确的模拟器，在四个代表性LLM工作负载上验证了RH+的效果：

### 8-12倍加速

相比基线调度策略，RH+实现了8到12倍的执行速度提升。这一提升完全来自于消除了不必要的行切换开销。

### 超过74%的能耗降低

行激活和预充电是DRAM操作中最耗能的部分。RH+通过大幅减少这些操作，实现了超过74%的能耗降低，这对于数据中心级别的部署具有重大意义。

### 52倍的EDP改进

能量延迟积（Energy-Delay Product, EDP）是衡量计算效率的综合指标。RH+实现了高达52倍的EDP改进，这意味着在更快完成计算的同时，能耗大幅降低。

---

## 深入分析：为什么简单的方法如此有效？

RH+的成功揭示了一个重要的系统设计原则：**理解真正的瓶颈比复杂优化更重要**。

### 重新审视优化目标

此前的研究将注意力集中在nCCDAB上，设计了各种复杂的调度算法来优化这个参数。但本文的研究表明，当nRC远大于nCCDAB时，这些优化都是无效的——就像优化汽车轮胎的摩擦力，而真正的瓶颈是发动机功率。

### 数据局部性的重要性

RH+本质上是一种数据局部性优化。通过保持访问的空间局部性，系统能够充分利用DRAM的物理特性，避免昂贵的行切换。这与传统CPU缓存优化中的空间局部性原理异曲同工。

### 简单性的价值

RH+的另一个优势在于其简单性。复杂的优化策略往往引入额外的开销和不确定性，而RH+的简单步长调整易于实现、易于验证、易于维护。

---

## 实践启示：对PIM系统设计的指导

### 地址映射策略的重新思考

RH+表明，地址映射策略对PIM性能有决定性影响。未来的PIM系统设计应该：

- 深入分析工作负载的访问模式
- 根据具体计算特征定制地址映射
- 考虑计算-存储协同设计

### 硬件与软件的协同

RH+的成功依赖于对HBM3物理特性的深入理解。这提示我们，PIM优化需要硬件架构师和软件优化者的紧密协作，不能各自为战。

### 评估方法的重要性

本文的研究也凸显了精确模拟的重要性。只有通过周期精确的模拟，才能发现nCCDAB被掩盖这一关键现象。粗粒度的性能模型可能会误导优化方向。

---

## 局限与未来方向

尽管RH+取得了显著成果，仍有一些值得探索的方向：

### 多银行并行

当前RH+专注于单银行内的优化，如何扩展到多银行并行场景，协调不同银行之间的访问模式，是未来研究的挑战。

### 不同工作负载的适应性

GEMV是LLM推理的主导操作，但其他操作（如注意力计算）可能有不同的访问模式。RH+的原理能否推广到这些场景？

### 硬件实现验证

本文基于模拟验证，实际的HBM3 PIM硬件实现RH+的效果如何，还需要进一步的实验验证。

---

## 总结

RH+调度策略通过一个简单的洞察——真正的瓶颈是DRAM行周期而非nCCDAB——实现了PIM架构LLM推理的突破性性能提升。8-12倍加速、74%能耗降低、52倍EDP改进，这些数字证明了理解系统瓶颈的重要性。

对于PIM架构的研究者和实践者来说，本文提供了宝贵的启示：在追求复杂优化之前，先确保你正在优化正确的目标。有时候，最简单的解决方案恰恰是最有效的。随着PIM技术在LLM推理中的广泛应用，RH+这类底层优化将成为释放硬件潜力的关键。
