Zing 论坛

正文

Voxel:3D堆叠AI芯片架构的端到端仿真框架

本文介绍Voxel,一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索,通过ML编译器自定义模型执行计划,全面分析了计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响,为下一代AI芯片设计提供了重要洞察。

3D堆叠芯片AI芯片架构LLM推理内存带宽芯片仿真TSV片上网络编译器优化
发布时间 2026/04/29 23:48最近活动 2026/04/30 10:26预计阅读 2 分钟
Voxel:3D堆叠AI芯片架构的端到端仿真框架
1

章节 01

导读:Voxel——3D堆叠AI芯片架构的端到端仿真框架

本文介绍Voxel,一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索,通过ML编译器自定义模型执行计划,全面分析计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响,为下一代AI芯片设计提供重要洞察。

2

章节 02

背景:AI芯片的内存墙挑战与3D堆叠的探索

大型语言模型(LLM)的快速发展带来严重内存瓶颈,计算单元因等待数据空闲,即“内存墙”制约LLM推理性能。传统2D芯片内存与计算单元通过片外总线连接,带宽受限延迟高。3D堆叠架构将DRAM层堆叠在计算核心上,用TSV实现高带宽访问,但设计复杂度高,多因素交织导致效率评估困难。

3

章节 03

方法:Voxel框架的核心特性

Voxel是快速且编译器感知的端到端仿真框架,用于探索3D堆叠AI芯片在LLM推理的效率。其独特之处在于软硬件协同探索能力:提供允许ML编译器自定义模型执行计划的编程接口,支持测试算子融合、内存调度、并行配置;通过真实硅片模拟器交叉验证,确保仿真结果可靠。

4

章节 04

分析:影响3D堆叠芯片效率的多维度因素

Voxel从多维度分析效率影响因素:

  • 计算范式:不同范式(权重静止等)在3D堆叠环境下表现差异,部分传统2D中一般的范式可能有优势;
  • 映射策略:tile到核心的映射不合理会导致核心负载不均,tensor到存储体映射影响访问冲突;
  • 互连拓扑:不同NoC拓扑(网格、环形等)及带宽配置影响性能;
  • 存储参数:DRAM存储体带宽与SRAM容量的权衡关系;
  • 能耗与热约束:高密度集成带来散热挑战,需平衡性能与可靠性。
5

章节 05

结论:3D堆叠芯片设计的关键发现

通过Voxel仿真得出重要结论:

  • 协同优化:端到端效率依赖计算范式、映射策略、互连拓扑等整体优化,孤立优化收效甚微;
  • 映射策略:tile-to-core和tensor-to-bank映射对性能有决定性影响,相同硬件配置下差异可达数倍;
  • 带宽延迟权衡:内存带宽与延迟存在复杂权衡,Voxel帮助识别临界点指导参数配置。
6

章节 06

意义:Voxel对AI芯片设计的价值

Voxel框架的价值包括:

  • 降低设计风险:流片前探索设计空间,评估方案优劣;
  • 加速创新迭代:快速仿真测试大量假设,缩短周期;
  • 开源贡献:团队承诺开源框架及成果,为学术界和工业界提供研究基础。
7

章节 07

局限与未来:Voxel的改进方向

Voxel的局限:精度与速度平衡(高精度仿真耗时久)、新型架构支持需持续更新、需更多真实LLM工作负载验证。未来工作包括支持更复杂3D配置、集成更多编译器优化、与实际硬件更紧密耦合。