正文

Tempus：面向边缘AI的时序可扩展GEMM流式计算框架

Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架，通过固定16个AIE-ML核心和算法级数据分块实现可扩展性，在607 GOPS性能下仅消耗10.677W功耗，相比ARIES实现211.2倍效率提升。

边缘AIGEMM加速AMD VersalAIE-ML时序扩展LLM推理矩阵乘法低功耗设计

发布时间 2026/05/01 17:28最近活动 2026/05/04 10:48预计阅读 3 分钟

章节 01

【导读】Tempus：面向边缘AI的时序可扩展GEMM流式计算框架核心解析

Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架，通过固定16个AIE-ML核心和算法级数据分块实现时序可扩展性。其在607 GOPS性能下仅消耗10.677W功耗，相比ARIES实现211.2倍效率提升，旨在解决边缘AI部署中的计算、内存与功耗瓶颈。

章节 02

边缘AI的算力困境与现有方案局限

大语言模型（LLM）的Scaling Law表明模型质量随计算规模提升而改善，但部署到边缘设备时面临计算、内存和功耗的严格限制。LLM推理中通用矩阵乘法（GEMM）占90%执行时间，加速GEMM是边缘AI实用化的关键。

AMD Versal SoC的AIE提供硬件基础，但现有SOTA框架采用空间扩展策略（分布工作负载到数百核心），在资源受限边缘SoC上面临物理实现失败、带宽饱和和过度资源消耗等问题。

章节 03

Tempus核心设计：从空间扩展转向时序扩展

Tempus提出从空间扩展转向时序扩展的理念：采用固定16个AIE-ML核心计算块，通过迭代图执行和可编程逻辑（PL）中的算法数据分块与复制实现可扩展性。

该设计带来三大优势：

资源不变性：矩阵规模变化时核心数量恒定，避免边缘资源争抢
高效数据流：高速级联流实现II=1的低延迟部分和归约
无死锁协议：DATAFLOW协议最大化传输-计算重叠和PLIO复用

章节 04

Tempus技术实现细节

算法级数据分块

Tempus在PL层实现智能数据分块：输入矩阵划分为适合AIE-ML本地内存的瓦片，通过DMA引擎在DDR和AIE阵列间高效传输，优化布局考虑计算依赖性和内存访问模式。

级联流架构

利用AIE-ML核心级联流能力，实现部分结果流水线归约：每个核心处理分配瓦片，中间结果传递给下一个核心累加，II=1时每时钟周期输出一个结果。

传输-计算重叠

通过双缓冲机制和DATAFLOW协议实现数据传输与计算最大重叠：AIE核心处理当前块时，DMA准备下一块，隐藏内存访问延迟。

章节 05

性能评估与ARIES对比数据

基准测试结果

Tempus在GEMM工作负载中实现：

607 GOPS计算性能
10.677 W总片上功耗
0.00% URAM/DSP利用率（完全依赖AIE-ML核心）

与ARIES对比

通过平台感知效用（PAU）指标，Tempus相比空间SOTA方案ARIES：

211.2倍显著性因子提升
22.0倍核心节俭性
7.1倍功耗节俭性 -6.3倍I/O需求降低

差异源于设计理念：ARIES堆砌硬件追峰值性能，Tempus通过算法优化和时序调度实现可持续扩展。

章节 06

Tempus对边缘LLM推理的意义与设计原则

Tempus为边缘LLM推理建立可持续、可扩展基础。资源受限边缘环境中，"更多核心=更好性能"不再适用，精细算法设计与硬件协同优化可在固定资源下接近理论效率。

启示边缘AI设计原则：

算法-硬件协同设计：充分利用目标硬件能力（如AIE-ML级联流），而非移植通用算法
时序优化优先：资源受限场景下，时序调度比空间并行更具成本效益
可扩展性≠资源扩展：真正可扩展性应在算法层面，而非硬件堆砌

章节 07

Tempus的局限与未来方向

Tempus当前主要针对GEMM算子，未来可探索：

将时序扩展策略扩展到卷积、注意力机制等其他计算密集型算子
结合稀疏性利用进一步降低计算和内存需求
探索多任务场景下的动态资源调度

章节 08

结语：Tempus为边缘AI加速提供新范式

Tempus通过资源不变的时序扩展策略，为边缘AI的GEMM加速提供高效、可持续解决方案。在607 GOPS性能与10.677W功耗的平衡点上，证明边缘LLM推理可通过算法创新和硬件协同优化实现，无需昂贵硬件堆砌，为下一代边缘AI加速器设计提供重要参考范式。