Zing 论坛

正文

PCCX:面向边缘FPGA的Transformer推理开源NPU架构

一个专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架,针对KV260开发板,通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈。

NPU架构FPGA加速Transformer推理边缘计算KV缓存量化推理VLIW指令集GEMV优化Xilinx KV260开源硬件
发布时间 2026/04/30 15:41最近活动 2026/04/30 15:53预计阅读 2 分钟
PCCX:面向边缘FPGA的Transformer推理开源NPU架构
1

章节 01

【导读】PCCX:面向边缘FPGA的Transformer推理开源NPU架构

PCCX是专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架,针对Xilinx KV260开发板,通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈,核心目标是加速资源受限边缘设备上的自回归解码推理。

2

章节 02

【背景】边缘Transformer推理的挑战与PCCX的定位

边缘设备资源受限,Transformer自回归解码阶段每次仅处理一个token,此时内存带宽受限的矩阵向量乘法(GEMV)成为性能瓶颈,而非计算受限的GEMM。PCCX选择Xilinx Kria KV260 SOM作为目标平台,设计哲学聚焦于解决GEMV瓶颈,区别于通用矩阵加速器。

3

章节 03

【方法】PCCX的架构设计与核心组件

PCCX采用分离式数据通路,优化矩阵与向量运算:

  1. 三大核心单元:GEMM(32×32脉动阵列,819 GMAC/s@400MHz)、GEMV(4核心×32-MAC流水线+归约树,51.2 GMAC/s@400MHz)、SFU/CVO(处理Softmax等非线性操作);
  2. 关键决策:W4A8混合精度量化(1 DSP=2 MAC)、自定义64位VLIW指令集、1.75MB共享URAM L2缓存、双时钟域(控制250MHz/计算400MHz)。
4

章节 04

【证据】内存优化与性能提升细节

内存层次:L1(Block RAM)、L2(1.75MB URAM共享缓存)、权重流(4个HP AXI端口)、KV缓存(片外); KV缓存优化:通过INT8/INT4量化、注意力淘汰、硬上限控制缓解32K上下文下1.31GB缓存的带宽瓶颈; 版本演进:v002解决v001痛点(如核心分离、分布式HP端口、双MAC DSP),实现3.125倍总吞吐提升。

5

章节 05

【开发与生态】双轨并行路线图及配套工具链

双轨开发:v002(Gemma3N E4B,20token/s,第1-49周)、v003(Gemma4 E4B,12-15token/s,第16-52周)并行; 工具链:pccx-FPGA-NPU-LLM-kv260(RTL源码)、pccx-lab(模拟器与分析器); 文档:支持英/韩文,含架构概览、ISA参考、RTL源码等。

6

章节 06

【结论】PCCX的项目意义与开源价值

PCCX是边缘AI推理领域的重要开源贡献,展示了软硬件协同设计解决部署瓶颈的方法,为研究者/工程师提供学习参考平台;双轨开发策略务实高效,对复杂硬件项目具有借鉴意义。