Zing 论坛

正文

FusionCIM:融合驱动的存内计算架构加速大模型推理

FusionCIM通过混合CIM流水线、QO静态数据流和模式感知在线softmax三大创新,在LLaMA-3上实现3.86倍能效提升和29.4 TOPS/W的系统级能效。

存内计算CIM大模型推理算子融合注意力机制LLaMA-3AI加速器
发布时间 2026/04/28 15:27最近活动 2026/04/29 11:01预计阅读 2 分钟
FusionCIM:融合驱动的存内计算架构加速大模型推理
1

章节 01

FusionCIM:融合驱动的存内计算架构加速大模型推理(导读)

FusionCIM导读

FusionCIM是融合驱动的存内计算架构,针对CIM应用于大模型推理的挑战,提出混合CIM流水线、QO静态数据流、模式感知在线softmax三大创新,在LLaMA-3上实现3.86倍能效提升和29.4 TOPS/W/W系统级能效,为AI加速器设计提供参考。

2

章节 02

存内计算的机遇与挑战

存内计算的机遇与挑战

存内计算(CIM)是突破冯·诺依曼架构内存墙瓶颈的关键技术,核心是将计算嵌入存储阵列减少数据搬运。但应用于LLM推理面临三大挑战:

  • 算子融合复杂性:注意力机制涉及多矩阵运算组合
  • 数据流优化困难:KV缓存动态特性导致静态数据流难优化
  • 非线性运算开销:Softmax等操作在模拟域效率低

FusionCIM针对这些挑战提出系统性解决方案。

3

章节 03

核心创新1:混合CIM流水线架构

核心创新1:混合CIM流水线架构

FusionCIM根据注意力机制中不同矩阵运算特性,采用混合CIM范式:

  • QK^T计算→内积CIM(IP-CIM):利用模拟电流累加实现高效点积,适合并行计算需求
  • PV聚合→外积CIM(OP-CIM):通过行列交叉电流求和支持外积广播,减少中间存储

智能调度两种模式,实现矩阵乘法深度融合,消除数据搬运。

4

章节 04

核心创新2:QO静态数据流

核心创新2:QO静态数据流

传统注意力需反复加载KV缓存,带宽压力大。FusionCIM提出QO-stationary策略:

  • 核心思想:转置融合场景下,保持Q和O静止,流动K和V
  • 优化点:消除重复KV加载、K矩阵缓冲访问,提升片上数据复用

使片上存储带宽利用率提升近一倍,是能效优势重要来源。

5

章节 05

核心创新3:模式感知在线Softmax

核心创新3:模式感知在线Softmax

Softmax是CIM效率瓶颈。FusionCIM利用注意力分数分布规律优化:

  • 观察:注意力分数稀疏,少数位置分数极高
  • 策略:动态调整指数计算精度、低分区域近似计算、在线重缩放避免完整归一化

将非线性融合开销降低60%以上,保持模型精度。

6

章节 06

实验验证:LLaMA-3性能表现

实验验证:LLaMA-3性能表现

在LLaMA-3上评估:

  • 能效:3.86倍提升(能耗降为26%),29.4 TOPS/W系统级能效(领先水平)
  • 速度:1.98倍加速
  • 架构增益:混合CIM流水线(45%)、QO数据流(35%)、Softmax优化(20%)

性能提升源于算子融合和高效数据流调度。

7

章节 07

技术启示与未来方向

技术启示与未来方向

技术启示

  1. 异构CIM组合优于单一架构
  2. 数据流设计与计算单元同等重要
  3. 算法-硬件协同设计潜力大

未来方向

  • 扩展至多模态模型
  • 探索更激进近似计算
  • 结合先进封装提升集成度

FusionCIM是CIM在LLM推理领域的重要进步,为下一代AI加速器提供参考。