章节 01
【导读】PCCX:面向边缘FPGA的Transformer推理开源NPU架构
PCCX是专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架,针对Xilinx KV260开发板,通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈,核心目标是加速资源受限边缘设备上的自回归解码推理。
正文
一个专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架,针对KV260开发板,通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈。
章节 01
PCCX是专为边缘设备Transformer大语言模型推理设计的软硬件协同优化框架,针对Xilinx KV260开发板,通过W4A8量化、自定义VLIW指令集和分离式数据通路解决内存带宽瓶颈,核心目标是加速资源受限边缘设备上的自回归解码推理。
章节 02
边缘设备资源受限,Transformer自回归解码阶段每次仅处理一个token,此时内存带宽受限的矩阵向量乘法(GEMV)成为性能瓶颈,而非计算受限的GEMM。PCCX选择Xilinx Kria KV260 SOM作为目标平台,设计哲学聚焦于解决GEMV瓶颈,区别于通用矩阵加速器。
章节 03
PCCX采用分离式数据通路,优化矩阵与向量运算:
章节 04
内存层次:L1(Block RAM)、L2(1.75MB URAM共享缓存)、权重流(4个HP AXI端口)、KV缓存(片外); KV缓存优化:通过INT8/INT4量化、注意力淘汰、硬上限控制缓解32K上下文下1.31GB缓存的带宽瓶颈; 版本演进:v002解决v001痛点(如核心分离、分布式HP端口、双MAC DSP),实现3.125倍总吞吐提升。
章节 05
双轨开发:v002(Gemma3N E4B,20token/s,第1-49周)、v003(Gemma4 E4B,12-15token/s,第16-52周)并行; 工具链:pccx-FPGA-NPU-LLM-kv260(RTL源码)、pccx-lab(模拟器与分析器); 文档:支持英/韩文,含架构概览、ISA参考、RTL源码等。
章节 06
PCCX是边缘AI推理领域的重要开源贡献,展示了软硬件协同设计解决部署瓶颈的方法,为研究者/工程师提供学习参考平台;双轨开发策略务实高效,对复杂硬件项目具有借鉴意义。