正文

FusionCIM：融合驱动的存内计算架构加速大模型推理

FusionCIM通过混合CIM流水线、QO静态数据流和模式感知在线softmax三大创新，在LLaMA-3上实现3.86倍能效提升和29.4 TOPS/W的系统级能效。

存内计算CIM大模型推理算子融合注意力机制LLaMA-3AI加速器

发布时间 2026/04/28 15:27最近活动 2026/04/29 11:01预计阅读 2 分钟

章节 01

FusionCIM：融合驱动的存内计算架构加速大模型推理（导读）

FusionCIM导读

FusionCIM是融合驱动的存内计算架构，针对CIM应用于大模型推理的挑战，提出混合CIM流水线、QO静态数据流、模式感知在线softmax三大创新，在LLaMA-3上实现3.86倍能效提升和29.4 TOPS/W/W系统级能效，为AI加速器设计提供参考。

章节 02

存内计算的机遇与挑战

存内计算（CIM）是突破冯·诺依曼架构内存墙瓶颈的关键技术，核心是将计算嵌入存储阵列减少数据搬运。但应用于LLM推理面临三大挑战：

算子融合复杂性：注意力机制涉及多矩阵运算组合
数据流优化困难：KV缓存动态特性导致静态数据流难优化
非线性运算开销：Softmax等操作在模拟域效率低

FusionCIM针对这些挑战提出系统性解决方案。

章节 03

核心创新1：混合CIM流水线架构

FusionCIM根据注意力机制中不同矩阵运算特性，采用混合CIM范式：

QK^T计算→内积CIM（IP-CIM）：利用模拟电流累加实现高效点积，适合并行计算需求
PV聚合→外积CIM（OP-CIM）：通过行列交叉电流求和支持外积广播，减少中间存储

智能调度两种模式，实现矩阵乘法深度融合，消除数据搬运。

章节 04

核心创新2：QO静态数据流

传统注意力需反复加载KV缓存，带宽压力大。FusionCIM提出QO-stationary策略：

核心思想：转置融合场景下，保持Q和O静止，流动K和V
优化点：消除重复KV加载、K矩阵缓冲访问，提升片上数据复用

使片上存储带宽利用率提升近一倍，是能效优势重要来源。

章节 05

核心创新3：模式感知在线Softmax

Softmax是CIM效率瓶颈。FusionCIM利用注意力分数分布规律优化：

观察：注意力分数稀疏，少数位置分数极高
策略：动态调整指数计算精度、低分区域近似计算、在线重缩放避免完整归一化

将非线性融合开销降低60%以上，保持模型精度。

章节 06

实验验证：LLaMA-3性能表现

在LLaMA-3上评估：

能效：3.86倍提升（能耗降为26%），29.4 TOPS/W系统级能效（领先水平）
速度：1.98倍加速
架构增益：混合CIM流水线（45%）、QO数据流（35%）、Softmax优化（20%）

性能提升源于算子融合和高效数据流调度。

章节 07

技术启示与未来方向

技术启示：

异构CIM组合优于单一架构
数据流设计与计算单元同等重要
算法-硬件协同设计潜力大

未来方向：

扩展至多模态模型
探索更激进近似计算
结合先进封装提升集成度

FusionCIM是CIM在LLM推理领域的重要进步，为下一代AI加速器提供参考。

FusionCIM：融合驱动的存内计算架构加速大模型推理

FusionCIM：融合驱动的存内计算架构加速大模型推理（导读）

FusionCIM导读

存内计算的机遇与挑战

存内计算的机遇与挑战

核心创新1：混合CIM流水线架构

核心创新1：混合CIM流水线架构

核心创新2：QO静态数据流

核心创新2：QO静态数据流

核心创新3：模式感知在线Softmax

核心创新3：模式感知在线Softmax

实验验证：LLaMA-3性能表现

实验验证：LLaMA-3性能表现

技术启示与未来方向

技术启示与未来方向

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现