# Tempus：面向边缘AI的时序可扩展GEMM流式计算框架

> Tempus是AMD Versal AI Edge SoC上的资源不变时序GEMM框架，通过固定16个AIE-ML核心和算法级数据分块实现可扩展性，在607 GOPS性能下仅消耗10.677W功耗，相比ARIES实现211.2倍效率提升。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-01T09:28:34.000Z
- 最近活动: 2026-05-04T02:48:35.288Z
- 热度: 94.7
- 关键词: 边缘AI, GEMM加速, AMD Versal, AIE-ML, 时序扩展, LLM推理, 矩阵乘法, 低功耗设计
- 页面链接: https://www.zingnex.cn/forum/thread/tempus-aigemm
- Canonical: https://www.zingnex.cn/forum/thread/tempus-aigemm
- Markdown 来源: ingested_event

---

# Tempus：面向边缘AI的时序可扩展GEMM流式计算框架

## 边缘AI的算力困境

大语言模型（LLM）的Scaling Law告诉我们：模型质量随计算规模提升而改善。然而，当这些庞然大物被部署到边缘设备时，计算、内存和功耗的严格限制成为了无法回避的瓶颈。在LLM推理过程中，通用矩阵乘法（GEMM）占据了高达90%的执行时间，这意味着GEMM的加速效率直接决定了边缘AI的实用性。

AMD Versal自适应SoC中的自适应智能引擎（AIE）为这一挑战提供了硬件基础，但现有的最先进（SOTA）框架往往采用空间扩展策略——将工作负载分布到数百个核心上。这种方法在资源受限的边缘SoC上却面临物理实现失败、带宽饱和和过度资源消耗等问题。

## Tempus的核心设计理念

Tempus框架提出了一个根本性的转变：从空间扩展转向时序扩展。与其随着矩阵规模增加而扩展硬件资源，Tempus采用固定的16个AIE-ML核心计算块，通过迭代图执行和可编程逻辑（PL）中的算法数据分块与复制来实现可扩展性。

这一设计带来了三个关键优势：

1. **资源不变性**：无论矩阵规模如何，核心数量保持恒定，避免了边缘设备上的资源争抢
2. **高效数据流**：高速级联流确保在Initiation Interval（II）为1的情况下实现低延迟部分和归约
3. **无死锁协议**：DATAFLOW协议最大化传输-计算重叠和PLIO复用

## 技术实现细节

### 算法级数据分块

Tempus在可编程逻辑层实现了智能的数据分块策略。输入矩阵被划分为适合AIE-ML核心本地内存的瓦片（tiles），通过DMA引擎在DDR和AIE阵列之间高效传输。这种分块不是简单的数据切割，而是考虑了计算依赖性和内存访问模式的优化布局。

### 级联流架构

框架利用AIE-ML核心的级联流（cascade streaming）能力，实现了部分结果的流水线式归约。每个核心处理其分配的瓦片，并将中间结果传递给下一个核心进行累加。这种设计使得在II=1的情况下，系统能够以每个时钟周期一个输出的速率产生最终结果。

### 传输-计算重叠

通过精心设计的双缓冲机制和DATAFLOW协议，Tempus实现了数据传输与计算的最大重叠。当AIE核心正在处理当前数据块时，DMA引擎已经在准备下一个数据块，从而隐藏了内存访问延迟。

## 性能评估与对比

### 基准测试结果

在GEMM工作负载的评估中，Tempus实现了：

- **607 GOPS** 的计算性能
- **10.677 W** 的总片上功耗
- **0.00%** 的URAM/DSP利用率（完全依赖AIE-ML核心）

### 与ARIES的对比分析

通过平台感知效用（PAU）指标进行系统级效率表征，Tempus相比领先的空间SOTA方案ARIES实现了：

- **211.2倍** 的显著性因子提升
- **22.0倍** 的核心节俭性（core frugality）
- **7.1倍** 的功耗节俭性
- **6.3倍** 的I/O需求降低

这些数字背后反映的是设计理念的根本差异：ARIES通过堆砌硬件资源追求峰值性能，而Tempus通过算法优化和时序调度实现可持续的扩展性。

## 对边缘LLM推理的意义

Tempus的出现为边缘LLM推理建立了一个可持续、可扩展的基础。在资源受限的边缘环境中，传统的"更多核心=更好性能"的思维模式已经不再适用。相反，通过精细的算法设计和硬件协同优化，可以在固定资源约束下实现接近理论极限的效率。

这一框架的成功也启示了更广泛的边缘AI设计原则：

1. **算法-硬件协同设计**：充分利用目标硬件的特定能力（如AIE-ML的级联流），而非简单移植通用算法
2. **时序优化优先**：在资源受限场景下，时序调度往往比空间并行更具成本效益
3. **可扩展性不等于资源扩展**：真正的可扩展性应该体现在算法层面，而非硬件堆砌

## 局限与未来方向

尽管Tempus在GEMM工作负载上表现出色，但其当前实现主要针对矩阵乘法这一核心算子。未来工作可以探索：

- 将时序扩展策略扩展到其他计算密集型算子（如卷积、注意力机制）
- 结合稀疏性利用进一步降低计算和内存需求
- 探索多任务场景下的动态资源调度

## 结语

Tempus框架通过资源不变的时序扩展策略，为边缘AI的GEMM加速提供了一个高效、可持续的解决方案。在607 GOPS性能和10.677W功耗的平衡点上，它证明了边缘设备上的LLM推理不必依赖于昂贵的硬件堆砌，而是可以通过算法创新和硬件协同优化来实现。这一工作为下一代边缘AI加速器的设计提供了重要的参考范式。
