Zing 论坛

正文

NVLLM:基于3D NAND的边缘端大模型推理新架构

NVLLM通过将FFN计算卸载到Flash存储、注意力计算保留在CMOS逻辑的创新架构,实现了在边缘设备上高效运行30B参数大模型的突破,相比A800方案提速16-38倍。

边缘计算大模型推理3D NAND存算一体AI芯片NVLLM端侧AI
发布时间 2026/04/28 22:26最近活动 2026/04/29 11:00预计阅读 2 分钟
NVLLM:基于3D NAND的边缘端大模型推理新架构
1

章节 01

NVLLM:边缘端大模型推理新架构导读

NVLLM是基于3D NAND的边缘端大模型推理新架构,核心创新在于将FFN计算卸载到Flash存储、注意力计算保留在CMOS逻辑,实现边缘设备高效运行30B参数模型,相比A800方案提速16-38倍,解决了边缘推理的内存密集型瓶颈问题。

2

章节 02

边缘大模型推理的背景与挑战

大语言模型在边缘设备运行面临根本性障碍:单批次解码是内存密集型任务。现有方案局限:GPU核外推理受DRAM与存储权重搬运开销限制;SSD加速器存储访问粒度效率低,无法兼顾低功耗、延迟和吞吐需求。

3

章节 03

NVLLM核心架构设计

  1. 计算任务分离:FFN(占90%+参数)卸载到3D NAND执行,注意力保留在CMOS逻辑配合DRAM;2. 晶圆级3D集成:多层NAND阵列+片上计算流水线+集成ECC+专用缓冲层,绕过DRAM瓶颈;3. 点积原语执行引擎:PE阵列直接读NAND数据,ECC与计算并行,乱序调度最大化带宽;4. KV缓存感知调度器:注意力权重存DRAM,智能预取动态调整,维持稳定吞吐量。
4

章节 04

NVLLM性能评估结果

在OPT和LLaMA系列模型评估:1. 与A800对比:提速16.7-37.9倍,源于消除权重搬运、存储内计算、3D NAND高密度;2. 与SSD类设计对比:最高4.7倍加速,仅增加2.7%CMOS面积开销,体现垂直集成与协同设计优势。

5

章节 05

NVLLM的技术意义与行业影响

  1. 存储-计算融合:打破冯·诺依曼内存墙;2. 边缘部署:30B参数模型边缘高效运行成为可能;3. 能效比:减少数据搬运实现数量级提升;4. 商业化:晶圆级堆叠技术成熟,为量产铺路。
6

章节 06

NVLLM的局限与未来展望

当前局限:注意力计算DRAM需求仍是瓶颈;3D NAND写入耐久性限制模型更新频率;MoE架构适配需研究。展望:为边缘大模型推理开辟新路径,存储中心化设计或影响未来AI芯片架构。