Zing 论坛

正文

PALUTE:基于查找表的存内计算加速器助力边缘端大语言模型推理

PALUTE利用单片三维DRAM实现存内查找表查询,在0.16W功耗下达到1264 TPS吞吐量,相比现有方案能效提升12.8倍,为边缘设备部署LLM提供了高效解决方案。

大语言模型边缘推理存内计算查找表三维DRAMAI加速器低功耗量化推理
发布时间 2026/06/08 08:33最近活动 2026/06/09 10:52预计阅读 2 分钟
PALUTE:基于查找表的存内计算加速器助力边缘端大语言模型推理
1

章节 01

【主楼/导读】PALUTE:基于存内查找表的边缘LLM推理加速器

PALUTE是一款针对边缘端大语言模型(LLM)推理的存内计算加速器,核心创新在于利用单片三维DRAM(M3D DRAM)实现存内查找表(LUT)查询。其在0.16W功耗下达到1264 TPS吞吐量,相比现有方案能效提升12.8倍,为边缘设备部署LLM提供高效解决方案。

原作者:arXiv authors | 来源:arXiv(2026-06-08)| 论文链接:http://arxiv.org/abs/2606.08891v1

2

章节 02

背景:边缘LLM推理的核心挑战

边缘设备(如手机、物联网设备)对LLM需求增长,但面临三大约束:

  1. 功耗预算紧张(移动设备仅几瓦上限);
  2. 芯片面积受限(影响成本与散热);
  3. 内存带宽瓶颈(远弱于数据中心)。

传统低位量化方案虽减少存储/计算量,但引入反量化与非线性运算开销,成为新瓶颈。

3

章节 03

方法:PALUTE的架构创新

PALUTE将LUT方法与M3D DRAM技术结合,关键设计包括:

  1. M3D DRAM垂直组织:利用垂直堆叠存储层,支持高并行查表,降低面积开销;
  2. 近内存LUT生成器:快速生成GEMM/非线性算子的LUT,动态更新避免静态表容量压力;
  3. 系统级调度:智能预测访问模式,预取数据,最小化跨层数据移动。
4

章节 04

证据:PALUTE的性能与能效表现

基于Qwen3-4B模型(W4A4量化)测试:

  • 吞吐量:1264 TPS;
  • 功耗:0.16W;
  • 能效对比:比CHIME提升12.8倍,比FIGLUT提升1.6倍;
  • 面积效率:比PIMPAL提升2.0倍。
5

章节 05

技术细节:存内计算与LUT优化

  1. 存内计算优势:减少数据搬运能耗(传统架构中数据搬运能耗远高于计算);
  2. LUT压缩编码:差分编码、分段线性逼近、自适应精度,优化存储效率;
  3. 量化协同:针对W4A4低位宽场景优化,利用量化规律性。
6

章节 06

应用场景:PALUTE的边缘部署方向

适用于:

  1. 智能手机端侧AI(离线翻译、隐私文档处理);
  2. 物联网与边缘网关(工业质检、智能监控);
  3. 自动驾驶与机器人(实时感知决策)。
7

章节 07

局限性与未来展望

当前局限

  • 模型规模:仅验证4B参数模型,更大模型扩展性待验证;
  • 通用性:针对Transformer优化,其他网络需调整;
  • 工艺依赖:M3D DRAM成熟度影响部署。

未来方向

  • 支持7B/13B模型;
  • 多模态扩展;
  • 动态精度调整;
  • 完善软件栈(编译器、运行时)。
8

章节 08

结论:PALUTE的边缘AI价值

PALUTE通过LUT与M3D DRAM结合,解决边缘LLM推理的功耗与性能矛盾,是边缘AI加速器的重要进展。随着硬件成熟与软件完善,未来边缘设备流畅运行大模型将成常态。