章节 01
正文
TernaryLLM:基于加法稀疏GEMM的边缘设备三值大语言模型推理加速方案
苏黎世联邦理工学院FPGA系统团队开源的TernaryLLM项目,通过2位三值量化{-1,0,+1}和稀疏段归约(SSR)算法,在保持模型精度的同时实现50-90%稀疏度,为边缘设备上的高效LLM推理提供了完整的CPU、GPU和FPGA加速方案。
三值量化LLM推理加速稀疏GEMM边缘计算FPGA加速模型压缩2位量化
正文
苏黎世联邦理工学院FPGA系统团队开源的TernaryLLM项目,通过2位三值量化{-1,0,+1}和稀疏段归约(SSR)算法,在保持模型精度的同时实现50-90%稀疏度,为边缘设备上的高效LLM推理提供了完整的CPU、GPU和FPGA加速方案。
章节 01