正文

PCCX：面向边缘FPGA的Transformer推理开源NPU架构

一个专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架，针对KV260开发板，通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈。

NPU架构FPGA加速Transformer推理边缘计算KV缓存量化推理VLIW指令集GEMV优化Xilinx KV260开源硬件

发布时间 2026/04/30 15:41最近活动 2026/04/30 15:53预计阅读 2 分钟

章节 01

【导读】PCCX：面向边缘FPGA的Transformer推理开源NPU架构

PCCX是专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架，针对Xilinx KV260开发板，通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈，核心目标是加速资源受限边缘设备上的自回归解码推理。

章节 02

【背景】边缘Transformer推理的挑战与PCCX的定位

边缘设备资源受限，Transformer自回归解码阶段每次仅处理一个token，此时内存带宽受限的矩阵向量乘法（GEMV）成为性能瓶颈，而非计算受限的GEMM。PCCX选择Xilinx Kria KV260 SOM作为目标平台，设计哲学聚焦于解决GEMV瓶颈，区别于通用矩阵加速器。

章节 03

【方法】PCCX的架构设计与核心组件

PCCX采用分离式数据通路，优化矩阵与向量运算：

三大核心单元：GEMM（32×32脉动阵列，819 GMAC/s@400MHz）、GEMV（4核心×32-MAC流水线+归约树，51.2 GMAC/s@400MHz）、SFU/CVO（处理Softmax等非线性操作）；
关键决策：W4A8混合精度量化（1 DSP=2 MAC）、自定义64位VLIW指令集、1.75MB共享URAM L2缓存、双时钟域（控制250MHz/计算400MHz）。

章节 04

【证据】内存优化与性能提升细节

内存层次：L1（Block RAM）、L2（1.75MB URAM共享缓存）、权重流（4个HP AXI端口）、KV缓存（片外）； KV缓存优化：通过INT8/INT4量化、注意力淘汰、硬上限控制缓解32K上下文下1.31GB缓存的带宽瓶颈； 版本演进：v002解决v001痛点（如核心分离、分布式HP端口、双MAC DSP），实现3.125倍总吞吐提升。

章节 05

【开发与生态】双轨并行路线图及配套工具链

双轨开发：v002（Gemma3N E4B，20token/s，第1-49周）、v003（Gemma4 E4B，12-15token/s，第16-52周）并行； 工具链：pccx-FPGA-NPU-LLM-kv260（RTL源码）、pccx-lab（模拟器与分析器）；文档：支持英/韩文，含架构概览、ISA参考、RTL源码等。

章节 06