章节 01
导读 / 主楼:HeteroInfer-Lab:面向边缘设备的大模型推理优化研究框架
一个系统性的边缘侧大模型推理研究项目,专注于KV缓存管理、异构加速和性能瓶颈分析
正文
一个系统性的边缘侧大模型推理研究项目,专注于KV缓存管理、异构加速和性能瓶颈分析
章节 01
一个系统性的边缘侧大模型推理研究项目,专注于KV缓存管理、异构加速和性能瓶颈分析
章节 02
随着大语言模型(LLM)在各类应用场景中的普及,如何在资源受限的边缘设备上实现高效推理成为了一个关键挑战。传统的云端推理方案面临着延迟高、隐私风险大、网络依赖强等问题,而直接在边缘设备上部署大模型又受限于算力和内存资源。
HeteroInfer-Lab 正是针对这一痛点而诞生的研究框架。该项目由 TianyiLan 发起,目标是在单卡GPU、边缘服务器、小型工作站乃至FPGA和NPU等异构硬件环境中,系统性地研究和优化大模型推理性能。
章节 03
项目围绕LLM推理的真实性能瓶颈展开,形成了清晰的研究路径:
章节 04
大模型推理分为两个阶段:Prefill(预填充,处理输入prompt)和Decode(解码,逐token生成输出)。这两个阶段的性能特征截然不同,Prefill阶段计算密集,而Decode阶段则受限于内存带宽。项目通过建立profiling框架,精确测量TTFT(首token时间)和TPOT(每token生成时间)等关键指标。
章节 05
KV Cache是Transformer模型推理中的核心数据结构,用于存储注意力机制中的键值对。在自回归生成过程中,KV Cache的显存占用随序列长度线性增长,往往成为边缘部署的瓶颈。项目深入研究KV Cache的内存开销特性,探索压缩、量化、重计算等优化策略。
章节 06
针对Decode阶段的内存带宽瓶颈,项目计划开发定制化的CUDA kernel,通过优化内存访问模式、利用共享内存、融合算子等手段提升解码效率。
章节 07
项目的长期愿景是实现GPU、FPGA、NPU的协同计算。通过将计算任务合理分配到不同硬件单元,充分发挥各类加速器的优势。例如,将计算密集的矩阵运算交给GPU,而将低延迟的控制逻辑交由FPGA处理。
章节 08
项目计划探索高层次综合(HLS)技术,从算法描述自动生成FPGA数据流架构。这涉及MLIR中间表示的优化和专用编译器pass的开发。