章节 01
【主楼/导读】PALUTE:基于存内查找表的边缘LLM推理加速器
PALUTE是一款针对边缘端大语言模型(LLM)推理的存内计算加速器,核心创新在于利用单片三维DRAM(M3D DRAM)实现存内查找表(LUT)查询。其在0.16W功耗下达到1264 TPS吞吐量,相比现有方案能效提升12.8倍,为边缘设备部署LLM提供高效解决方案。
原作者:arXiv authors | 来源:arXiv(2026-06-08)| 论文链接:http://arxiv.org/abs/2606.08891v1