正文

Voxel：3D堆叠AI芯片架构的端到端仿真框架

本文介绍Voxel，一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索，通过ML编译器自定义模型执行计划，全面分析了计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响，为下一代AI芯片设计提供了重要洞察。

3D堆叠芯片AI芯片架构LLM推理内存带宽芯片仿真TSV片上网络编译器优化

发布时间 2026/04/29 23:48最近活动 2026/04/30 10:26预计阅读 2 分钟

章节 01

导读：Voxel——3D堆叠AI芯片架构的端到端仿真框架

本文介绍Voxel，一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索，通过ML编译器自定义模型执行计划，全面分析计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响，为下一代AI芯片设计提供重要洞察。

章节 02

大型语言模型（LLM）的快速发展带来严重内存瓶颈，计算单元因等待数据空闲，即“内存墙”制约LLM推理性能。传统2D芯片内存与计算单元通过片外总线连接，带宽受限延迟高。3D堆叠架构将DRAM层堆叠在计算核心上，用TSV实现高带宽访问，但设计复杂度高，多因素交织导致效率评估困难。

章节 03

Voxel是快速且编译器感知的端到端仿真框架，用于探索3D堆叠AI芯片在LLM推理的效率。其独特之处在于软硬件协同探索能力：提供允许ML编译器自定义模型执行计划的编程接口，支持测试算子融合、内存调度、并行配置；通过真实硅片模拟器交叉验证，确保仿真结果可靠。

章节 04

Voxel从多维度分析效率影响因素：

章节 05

通过Voxel仿真得出重要结论：

章节 06

Voxel框架的价值包括：

章节 07

Voxel的局限：精度与速度平衡（高精度仿真耗时久）、新型架构支持需持续更新、需更多真实LLM工作负载验证。未来工作包括支持更复杂3D配置、集成更多编译器优化、与实际硬件更紧密耦合。