章节 01
NVLLM:边缘端大模型推理新架构导读
NVLLM是基于3D NAND的边缘端大模型推理新架构,核心创新在于将FFN计算卸载到Flash存储、注意力计算保留在CMOS逻辑,实现边缘设备高效运行30B参数模型,相比A800方案提速16-38倍,解决了边缘推理的内存密集型瓶颈问题。
正文
NVLLM通过将FFN计算卸载到Flash存储、注意力计算保留在CMOS逻辑的创新架构,实现了在边缘设备上高效运行30B参数大模型的突破,相比A800方案提速16-38倍。
章节 01
NVLLM是基于3D NAND的边缘端大模型推理新架构,核心创新在于将FFN计算卸载到Flash存储、注意力计算保留在CMOS逻辑,实现边缘设备高效运行30B参数模型,相比A800方案提速16-38倍,解决了边缘推理的内存密集型瓶颈问题。
章节 02
大语言模型在边缘设备运行面临根本性障碍:单批次解码是内存密集型任务。现有方案局限:GPU核外推理受DRAM与存储权重搬运开销限制;SSD加速器存储访问粒度效率低,无法兼顾低功耗、延迟和吞吐需求。
章节 03
章节 04
在OPT和LLaMA系列模型评估:1. 与A800对比:提速16.7-37.9倍,源于消除权重搬运、存储内计算、3D NAND高密度;2. 与SSD类设计对比:最高4.7倍加速,仅增加2.7%CMOS面积开销,体现垂直集成与协同设计优势。
章节 05
章节 06
当前局限:注意力计算DRAM需求仍是瓶颈;3D NAND写入耐久性限制模型更新频率;MoE架构适配需研究。展望:为边缘大模型推理开辟新路径,存储中心化设计或影响未来AI芯片架构。