正文

PALUTE：基于查找表的存内计算加速器助力边缘端大语言模型推理

PALUTE利用单片三维DRAM实现存内查找表查询，在0.16W功耗下达到1264 TPS吞吐量，相比现有方案能效提升12.8倍，为边缘设备部署LLM提供了高效解决方案。

大语言模型边缘推理存内计算查找表三维DRAMAI加速器低功耗量化推理

发布时间 2026/06/08 08:33最近活动 2026/06/09 10:52预计阅读 2 分钟

章节 01

【主楼/导读】PALUTE：基于存内查找表的边缘LLM推理加速器

PALUTE是一款针对边缘端大语言模型（LLM）推理的存内计算加速器，核心创新在于利用单片三维DRAM（M3D DRAM）实现存内查找表（LUT）查询。其在0.16W功耗下达到1264 TPS吞吐量，相比现有方案能效提升12.8倍，为边缘设备部署LLM提供高效解决方案。

原作者：arXiv authors | 来源：arXiv（2026-06-08）| 论文链接：http://arxiv.org/abs/2606.08891v1

章节 02

背景：边缘LLM推理的核心挑战

边缘设备（如手机、物联网设备）对LLM需求增长，但面临三大约束：

功耗预算紧张（移动设备仅几瓦上限）；
芯片面积受限（影响成本与散热）；
内存带宽瓶颈（远弱于数据中心）。

传统低位量化方案虽减少存储/计算量，但引入反量化与非线性运算开销，成为新瓶颈。

章节 03

方法：PALUTE的架构创新

PALUTE将LUT方法与M3D DRAM技术结合，关键设计包括：

M3D DRAM垂直组织：利用垂直堆叠存储层，支持高并行查表，降低面积开销；
近内存LUT生成器：快速生成GEMM/非线性算子的LUT，动态更新避免静态表容量压力；
系统级调度：智能预测访问模式，预取数据，最小化跨层数据移动。

章节 04

证据：PALUTE的性能与能效表现

基于Qwen3-4B模型（W4A4量化）测试：

吞吐量：1264 TPS；
功耗：0.16W；
能效对比：比CHIME提升12.8倍，比FIGLUT提升1.6倍；
面积效率：比PIMPAL提升2.0倍。

章节 05

技术细节：存内计算与LUT优化

存内计算优势：减少数据搬运能耗（传统架构中数据搬运能耗远高于计算）；
LUT压缩编码：差分编码、分段线性逼近、自适应精度，优化存储效率；
量化协同：针对W4A4低位宽场景优化，利用量化规律性。

章节 06

应用场景：PALUTE的边缘部署方向

适用于：

智能手机端侧AI（离线翻译、隐私文档处理）；
物联网与边缘网关（工业质检、智能监控）；
自动驾驶与机器人（实时感知决策）。

章节 07

局限性与未来展望

当前局限：

模型规模：仅验证4B参数模型，更大模型扩展性待验证；
通用性：针对Transformer优化，其他网络需调整；
工艺依赖：M3D DRAM成熟度影响部署。

未来方向：

支持7B/13B模型；
多模态扩展；
动态精度调整；
完善软件栈（编译器、运行时）。

章节 08

结论：PALUTE的边缘AI价值

PALUTE通过LUT与M3D DRAM结合，解决边缘LLM推理的功耗与性能矛盾，是边缘AI加速器的重要进展。随着硬件成熟与软件完善，未来边缘设备流畅运行大模型将成常态。

PALUTE：基于查找表的存内计算加速器助力边缘端大语言模型推理

【主楼/导读】PALUTE：基于存内查找表的边缘LLM推理加速器

背景：边缘LLM推理的核心挑战

方法：PALUTE的架构创新

证据：PALUTE的性能与能效表现

技术细节：存内计算与LUT优化

应用场景：PALUTE的边缘部署方向

局限性与未来展望

结论：PALUTE的边缘AI价值

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程