章节 01
【导读】Tempus:面向边缘AI的时序可扩展GEMM流式计算框架核心解析
Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架,通过固定16个AIE-ML核心和算法级数据分块实现时序可扩展性。其在607 GOPS性能下仅消耗10.677W功耗,相比ARIES实现211.2倍效率提升,旨在解决边缘AI部署中的计算、内存与功耗瓶颈。
正文
Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架,通过固定16个AIE-ML核心和算法级数据分块实现可扩展性,在607 GOPS性能下仅消耗10.677W功耗,相比ARIES实现211.2倍效率提升。
章节 01
Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架,通过固定16个AIE-ML核心和算法级数据分块实现时序可扩展性。其在607 GOPS性能下仅消耗10.677W功耗,相比ARIES实现211.2倍效率提升,旨在解决边缘AI部署中的计算、内存与功耗瓶颈。
章节 02
大语言模型(LLM)的Scaling Law表明模型质量随计算规模提升而改善,但部署到边缘设备时面临计算、内存和功耗的严格限制。LLM推理中通用矩阵乘法(GEMM)占90%执行时间,加速GEMM是边缘AI实用化的关键。
AMD Versal SoC的AIE提供硬件基础,但现有SOTA框架采用空间扩展策略(分布工作负载到数百核心),在资源受限边缘SoC上面临物理实现失败、带宽饱和和过度资源消耗等问题。
章节 03
Tempus提出从空间扩展转向时序扩展的理念:采用固定16个AIE-ML核心计算块,通过迭代图执行和可编程逻辑(PL)中的算法数据分块与复制实现可扩展性。
该设计带来三大优势:
章节 04
Tempus在PL层实现智能数据分块:输入矩阵划分为适合AIE-ML本地内存的瓦片,通过DMA引擎在DDR和AIE阵列间高效传输,优化布局考虑计算依赖性和内存访问模式。
利用AIE-ML核心级联流能力,实现部分结果流水线归约:每个核心处理分配瓦片,中间结果传递给下一个核心累加,II=1时每时钟周期输出一个结果。
通过双缓冲机制和DATAFLOW协议实现数据传输与计算最大重叠:AIE核心处理当前块时,DMA准备下一块,隐藏内存访问延迟。
章节 05
Tempus在GEMM工作负载中实现:
通过平台感知效用(PAU)指标,Tempus相比空间SOTA方案ARIES:
差异源于设计理念:ARIES堆砌硬件追峰值性能,Tempus通过算法优化和时序调度实现可持续扩展。
章节 06
Tempus为边缘LLM推理建立可持续、可扩展基础。资源受限边缘环境中,"更多核心=更好性能"不再适用,精细算法设计与硬件协同优化可在固定资源下接近理论效率。
启示边缘AI设计原则:
章节 07
Tempus当前主要针对GEMM算子,未来可探索:
章节 08
Tempus通过资源不变的时序扩展策略,为边缘AI的GEMM加速提供高效、可持续解决方案。在607 GOPS性能与10.677W功耗的平衡点上,证明边缘LLM推理可通过算法创新和硬件协同优化实现,无需昂贵硬件堆砌,为下一代边缘AI加速器设计提供重要参考范式。