章节 01
【导读】NASiC:面向MoE大模型端侧推理的3D NAND存算一体新架构
NASiC是一种专为混合专家模型(MoE)设计的3D NAND存内计算架构,通过融合CAM内容寻址与CIM计算,实现单周期内完成专家选择与计算,解决MoE模型端侧部署的存储墙问题。该架构带来4-114.8倍性能提升与3.9-70倍能效提升,为端侧大模型推理提供创新方案。
正文
本文介绍NASiC架构,一种专为混合专家模型(MoE)设计的3D NAND存内计算方案,通过CAM内容寻址与CIM计算的融合,在单周期内完成专家选择与计算,实现4-114.8倍性能提升与3.9-70倍能效提升。
章节 01
NASiC是一种专为混合专家模型(MoE)设计的3D NAND存内计算架构,通过融合CAM内容寻址与CIM计算,实现单周期内完成专家选择与计算,解决MoE模型端侧部署的存储墙问题。该架构带来4-114.8倍性能提升与3.9-70倍能效提升,为端侧大模型推理提供创新方案。
章节 02
混合专家模型(MoE)是LLM主流范式,通过稀疏激活机制在控制推理成本的同时实现参数规模扩展。但MoE端侧部署面临存储墙挑战:完整参数集需驻留内存,传统HBM+片外搬运方案带来高能耗与延迟瓶颈,限制其在资源受限设备中的应用。
章节 03
3D NAND为存算一体提供独特硬件基础:高存储容量(数百GB/TB级)、低数据移动开销、多比特存储能力。但应用于MoE存在挑战:动态稀疏激活导致计算并行度下降、多比特存储利用率低、专家选择额外开销,现有方案难以发挥MoE潜力。
章节 04
NASiC核心创新是CAM与CIM深度融合:利用3D NAND串结构支持CAM(专家选择)与CIM(乘加计算)模式,单周期完成选择与计算。电路优化包括块级并行计算(多专家同时处理)、原位有符号多比特扩展(无额外转换开销)、动态电压调节(按需优化能耗)。
章节 05
性能评估显示NASiC相比先进存算设计:性能提升4-114.8倍(融合消除控制开销、块并行利用密度、CAM减少路由延迟);能效提升3.9-70倍(减少数据移动、动态电压调节、多比特高效利用);推理精度与浮点基线相比损失可控。
章节 06
NASiC意义与前景:推动端侧百亿参数MoE部署;提供算法-架构-电路协同设计范式;拓展3D NAND AI应用方向。挑战包括工艺兼容性、编程接口开发、可靠性保障、多任务支持。
章节 07
NASiC代表MoE端侧推理存算一体设计的重要突破,融合CAM与CIM实现性能能效数量级提升。期待该架构从论文走向产品,赋能端侧大模型广泛应用,为存算一体未来发展指明方向。