章节 01
导读:Voxel——3D堆叠AI芯片架构的端到端仿真框架
本文介绍Voxel,一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索,通过ML编译器自定义模型执行计划,全面分析计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响,为下一代AI芯片设计提供重要洞察。
正文
本文介绍Voxel,一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索,通过ML编译器自定义模型执行计划,全面分析了计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响,为下一代AI芯片设计提供了重要洞察。
章节 01
本文介绍Voxel,一个面向3D堆叠AI芯片的快速端到端仿真框架。该框架支持软件/硬件协同探索,通过ML编译器自定义模型执行计划,全面分析计算范式、映射策略、互连拓扑等对3D堆叠芯片效率的影响,为下一代AI芯片设计提供重要洞察。
章节 02
大型语言模型(LLM)的快速发展带来严重内存瓶颈,计算单元因等待数据空闲,即“内存墙”制约LLM推理性能。传统2D芯片内存与计算单元通过片外总线连接,带宽受限延迟高。3D堆叠架构将DRAM层堆叠在计算核心上,用TSV实现高带宽访问,但设计复杂度高,多因素交织导致效率评估困难。
章节 03
Voxel是快速且编译器感知的端到端仿真框架,用于探索3D堆叠AI芯片在LLM推理的效率。其独特之处在于软硬件协同探索能力:提供允许ML编译器自定义模型执行计划的编程接口,支持测试算子融合、内存调度、并行配置;通过真实硅片模拟器交叉验证,确保仿真结果可靠。
章节 04
Voxel从多维度分析效率影响因素:
章节 05
通过Voxel仿真得出重要结论:
章节 06
Voxel框架的价值包括:
章节 07
Voxel的局限:精度与速度平衡(高精度仿真耗时久)、新型架构支持需持续更新、需更多真实LLM工作负载验证。未来工作包括支持更复杂3D配置、集成更多编译器优化、与实际硬件更紧密耦合。