# NASiC：面向MoE大模型端侧推理的3D NAND存算一体新架构

> 本文介绍NASiC架构，一种专为混合专家模型(MoE)设计的3D NAND存内计算方案，通过CAM内容寻址与CIM计算的融合，在单周期内完成专家选择与计算，实现4-114.8倍性能提升与3.9-70倍能效提升。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-22T07:10:57.000Z
- 最近活动: 2026-05-25T03:48:09.015Z
- 热度: 86.4
- 关键词: MoE, 存算一体, 3D NAND, 端侧推理, CAM, CIM, 大语言模型, AI芯片, 稀疏激活, 边缘计算
- 页面链接: https://www.zingnex.cn/forum/thread/nasic-moe3d-nand
- Canonical: https://www.zingnex.cn/forum/thread/nasic-moe3d-nand
- Markdown 来源: ingested_event

---

# NASiC：面向MoE大模型端侧推理的3D NAND存算一体新架构

## 原作者与来源

- **原作者/维护者**：论文作者团队（未公开具体姓名，来自相关研究机构）
- **来源平台**：arXiv
- **原文标题**：NASiC: 3D NAND-based CAM-Selected Multibit CIM Architecture for Efficient On-Device Mixture-of-Experts LLM Inference
- **原文链接**：<http://arxiv.org/abs/2605.23294v1>
- **发布时间**：2026年5月22日

---

## 背景：MoE模型的端侧部署困境

混合专家模型（Mixture-of-Experts，简称MoE）已成为当前大语言模型（LLM）领域的主流范式。与稠密模型相比，MoE能够在不显著增加计算成本的前提下实现参数规模的指数级扩展。以DeepSeek-V2、Mixtral 8x22B等为代表的MoE架构，通过稀疏激活机制，让每次前向传播仅调用部分专家网络，从而在保持高性能的同时控制推理成本。

然而，MoE模型的端侧部署面临一个根本性挑战：**存储所有专家参数所需的巨大内存容量**。一个典型的MoE模型可能包含数十亿甚至上百亿的参数，尽管每次推理只激活其中一小部分，但完整的参数集仍需驻留在内存中。这种"存储墙"问题严重限制了MoE模型在手机、边缘设备等资源受限场景中的应用。

传统解决方案依赖于高带宽内存（HBM）和频繁的片外数据搬运，但这带来了显著的能耗开销和延迟瓶颈。因此，如何在端侧设备上高效部署MoE模型，成为当前AI芯片领域亟待解决的关键问题。

---

## 3D NAND存算一体：机遇与挑战并存

3D NAND技术凭借其极高的存储密度和三维堆叠能力，为存算一体（Computing-in-Memory，CIM）架构提供了独特的硬件基础。与传统的DRAM或SRAM相比，3D NAND具有以下显著优势：

**高存储容量**：现代3D NAND芯片可提供数百GB甚至TB级的存储空间，足以容纳大型MoE模型的全部参数。

**低数据移动开销**：存算一体架构将计算单元直接嵌入存储阵列，避免了传统冯·诺依曼架构中数据在处理器和内存之间的频繁搬运，从而大幅降低能耗。

**多比特存储能力**：3D NAND的闪存单元天然支持多比特存储（MLC/TLC/QLC），每个单元可存储2-4比特信息，为高精度神经网络计算提供了硬件基础。

然而，将3D NAND应用于MoE模型推理并非易事。MoE模型的核心特性是**动态稀疏的专家激活**——对于每个输入token，路由器网络需要从众多专家中选择少数几个进行激活。这种动态选择性导致：

1. **计算并行度下降**：传统CIM架构难以高效处理动态变化的激活模式
2. **多比特存储利用率低**：专家选择的稀疏性导致大量存储单元闲置
3. **专家选择开销**：需要在计算前额外执行路由决策，增加延迟

这些挑战使得现有的3D NAND CIM方案难以充分发挥MoE模型的潜力。

---

## NASiC架构：CAM与CIM的深度融合

针对上述问题，研究团队提出了**NASiC**（NAND-based CAM-Selected CIM Architecture）——一种专为MoE模型量身定制的3D NAND存算一体架构。NASiC的核心创新在于将内容可寻址存储器（CAM）的掩码机制与存内计算（CIM）的乘加运算深度融合，实现专家选择与计算的单周期完成。

### 核心架构设计

NASiC充分利用3D NAND的固有串结构（string structure），将存储阵列重新组织为支持两种操作模式的混合架构：

**CAM模式（专家选择）**：
- 利用3D NAND的字线（Word Line）作为CAM的匹配线
- 通过内容寻址机制快速定位需要激活的专家块
- 支持并行的多专家路由决策

**CIM模式（专家计算）**：
- 在选定的专家块内执行乘加运算
- 利用闪存单元的模拟特性实现权重与输入的乘法
- 通过位线（Bit Line）电流累加实现求和

这种融合设计的精妙之处在于：**CAM-based掩码机制与CIM计算可以在同一个存储周期内完成**。传统方案需要先在控制单元执行路由决策，再将数据搬移到计算单元，而NASiC通过硬件层面的协同设计，彻底消除了这一冗余步骤。

### 电路级协同优化

为了进一步提升性能和能效，NASiC在电路层面进行了多项关键优化：

**块级并行计算（Block-wise Parallel Computation）**：

MoE模型通常包含多个并行的专家块。NASiC将3D NAND阵列划分为独立的计算块，每个块可独立执行专家计算。这种设计使得多个专家可以同时在不同存储块上并行处理，显著提升了整体吞吐量。

**原位有符号多比特扩展（In-situ Signed Multibit Input and Weight Expansion）**：

神经网络计算需要处理有符号数，而闪存单元存储的是无符号多比特值。NASiC引入了创新的编码方案，通过差分读取和参考单元配置，在存储阵列内部直接实现有符号数的表示和运算，避免了额外的数据转换开销。

**动态电压调节**：

针对不同计算阶段的精度需求，NASiC支持动态调整字线和位线的驱动电压。在专家选择阶段采用较高电压确保CAM匹配的可靠性，在计算阶段则根据精度要求优化电压以降低能耗。

---

## 性能评估：数量级的提升

研究团队通过全面的实验评估验证了NASiC架构的有效性。实验涵盖了多种MoE模型配置和不同的工作负载特征，结果令人印象深刻：

### 性能提升

与当前最先进的存算一体设计相比，NASiC实现了**4倍到114.8倍**的性能提升。这一显著改进主要来源于：

- 专家选择与计算的融合消除了传统架构中的控制开销
- 块级并行计算充分利用了3D NAND的高存储密度
- CAM机制的快速匹配减少了路由延迟

### 能效优化

在能效方面，NASiC实现了**3.9倍到70倍**的能耗效率提升。这一成果得益于：

- 减少的数据移动：专家参数就地计算，无需片外搬运
- 动态电压调节：根据计算需求优化能耗
- 多比特存储的高效利用：每个闪存单元存储多个权重比特

### 精度保持

尽管NASiC在硬件层面进行了大量优化，但模型推理精度得到了有效保持。实验表明，在各种基准测试任务上，采用NASiC架构的MoE模型与浮点基线相比，精度损失控制在可接受范围内。这证明了电路级优化与算法需求的良好匹配。

---

## 技术意义与应用前景

NASiC架构的提出具有重要的技术意义和广阔的应用前景：

**推动端侧大模型部署**：

随着大模型向端侧设备迁移的趋势加速，NASiC为在手机、IoT设备、自动驾驶系统等资源受限场景部署MoE模型提供了可行的硬件路径。其高存储密度和高能效特性，使得在端侧运行百亿参数级别的MoE模型成为可能。

**存算一体架构的新范式**：

NASiC展示了如何将特定算法特性（MoE的动态稀疏性）与硬件架构深度融合。这种"算法-架构-电路"协同设计的方法论，为未来针对其他稀疏计算模式的存算一体设计提供了重要参考。

**3D NAND技术的新应用方向**：

传统上，3D NAND主要用于数据存储（SSD等）。NASiC拓展了其应用场景，展示了3D NAND在AI计算领域的巨大潜力。这可能推动存储厂商开发更适合存算一体的3D NAND工艺变体。

**挑战与展望**：

尽管NASiC展现了令人瞩目的性能，但在实际大规模部署前仍需解决一些挑战：

1. **工艺兼容性**：如何将NASiC的电路优化集成到标准3D NAND制造工艺中
2. **编程接口**：为开发者提供友好的软件栈和编程模型
3. **可靠性保障**：闪存单元的耐久性和数据保持特性对计算精度的影响
4. **多任务支持**：如何在同一硬件上支持不同类型的模型和工作负载

---

## 结语

NASiC架构代表了面向MoE大模型端侧推理的存算一体设计的重要突破。通过将CAM内容寻址与CIM存内计算深度融合，NASiC在单周期内完成专家选择与计算，实现了性能与能效的数量级提升。这一工作不仅为解决MoE模型的端侧部署难题提供了创新方案，也为存算一体架构的未来发展指明了方向。

随着大模型技术的持续演进和端侧AI需求的快速增长，类似NASiC这样的专用架构将在AI硬件生态中扮演越来越重要的角色。期待看到这一架构从论文走向实际芯片产品，真正赋能端侧大模型的广泛应用。