Zing 论坛

正文

Tempus:面向边缘AI的时序可扩展GEMM流式计算框架

Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架,通过固定16个AIE-ML核心和算法级数据分块实现可扩展性,在607 GOPS性能下仅消耗10.677W功耗,相比ARIES实现211.2倍效率提升。

边缘AIGEMM加速AMD VersalAIE-ML时序扩展LLM推理矩阵乘法低功耗设计
发布时间 2026/05/01 17:28最近活动 2026/05/04 10:48预计阅读 3 分钟
Tempus:面向边缘AI的时序可扩展GEMM流式计算框架
1

章节 01

【导读】Tempus:面向边缘AI的时序可扩展GEMM流式计算框架核心解析

Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架,通过固定16个AIE-ML核心和算法级数据分块实现时序可扩展性。其在607 GOPS性能下仅消耗10.677W功耗,相比ARIES实现211.2倍效率提升,旨在解决边缘AI部署中的计算、内存与功耗瓶颈。

2

章节 02

边缘AI的算力困境与现有方案局限

大语言模型(LLM)的Scaling Law表明模型质量随计算规模提升而改善,但部署到边缘设备时面临计算、内存和功耗的严格限制。LLM推理中通用矩阵乘法(GEMM)占90%执行时间,加速GEMM是边缘AI实用化的关键。

AMD Versal SoC的AIE提供硬件基础,但现有SOTA框架采用空间扩展策略(分布工作负载到数百核心),在资源受限边缘SoC上面临物理实现失败、带宽饱和和过度资源消耗等问题。

3

章节 03

Tempus核心设计:从空间扩展转向时序扩展

Tempus提出从空间扩展转向时序扩展的理念:采用固定16个AIE-ML核心计算块,通过迭代图执行和可编程逻辑(PL)中的算法数据分块与复制实现可扩展性。

该设计带来三大优势:

  1. 资源不变性:矩阵规模变化时核心数量恒定,避免边缘资源争抢
  2. 高效数据流:高速级联流实现II=1的低延迟部分和归约
  3. 无死锁协议:DATAFLOW协议最大化传输-计算重叠和PLIO复用
4

章节 04

Tempus技术实现细节

算法级数据分块

Tempus在PL层实现智能数据分块:输入矩阵划分为适合AIE-ML本地内存的瓦片,通过DMA引擎在DDR和AIE阵列间高效传输,优化布局考虑计算依赖性和内存访问模式。

级联流架构

利用AIE-ML核心级联流能力,实现部分结果流水线归约:每个核心处理分配瓦片,中间结果传递给下一个核心累加,II=1时每时钟周期输出一个结果。

传输-计算重叠

通过双缓冲机制和DATAFLOW协议实现数据传输与计算最大重叠:AIE核心处理当前块时,DMA准备下一块,隐藏内存访问延迟。

5

章节 05

性能评估与ARIES对比数据

基准测试结果

Tempus在GEMM工作负载中实现:

  • 607 GOPS计算性能
  • 10.677 W总片上功耗
  • 0.00% URAM/DSP利用率(完全依赖AIE-ML核心)

与ARIES对比

通过平台感知效用(PAU)指标,Tempus相比空间SOTA方案ARIES:

  • 211.2倍显著性因子提升
  • 22.0倍核心节俭性
  • 7.1倍功耗节俭性 -6.3倍I/O需求降低

差异源于设计理念:ARIES堆砌硬件追峰值性能,Tempus通过算法优化和时序调度实现可持续扩展。

6

章节 06

Tempus对边缘LLM推理的意义与设计原则

Tempus为边缘LLM推理建立可持续、可扩展基础。资源受限边缘环境中,"更多核心=更好性能"不再适用,精细算法设计与硬件协同优化可在固定资源下接近理论效率。

启示边缘AI设计原则:

  1. 算法-硬件协同设计:充分利用目标硬件能力(如AIE-ML级联流),而非移植通用算法
  2. 时序优化优先:资源受限场景下,时序调度比空间并行更具成本效益
  3. 可扩展性≠资源扩展:真正可扩展性应在算法层面,而非硬件堆砌
7

章节 07

Tempus的局限与未来方向

Tempus当前主要针对GEMM算子,未来可探索:

  • 将时序扩展策略扩展到卷积、注意力机制等其他计算密集型算子
  • 结合稀疏性利用进一步降低计算和内存需求
  • 探索多任务场景下的动态资源调度
8

章节 08

结语:Tempus为边缘AI加速提供新范式

Tempus通过资源不变的时序扩展策略,为边缘AI的GEMM加速提供高效、可持续解决方案。在607 GOPS性能与10.677W功耗的平衡点上,证明边缘LLM推理可通过算法创新和硬件协同优化实现,无需昂贵硬件堆砌,为下一代边缘AI加速器设计提供重要参考范式。