Zing 论坛

正文

IntAttention:面向边缘设备的纯整数注意力推理加速方案

MLSys 2026 论文开源实现,通过全整数注意力流水线在 ARM CPU 上实现大模型与视觉 Transformer 的高保真高速推理。

IntAttention整数量化边缘推理Transformer优化ARM CPUMLSys 2026注意力机制模型部署
发布时间 2026/04/20 03:14最近活动 2026/04/20 03:20预计阅读 2 分钟
IntAttention:面向边缘设备的纯整数注意力推理加速方案
1

章节 01

【导读】IntAttention:面向边缘设备的纯整数注意力推理加速方案

IntAttention是MLSys 2026论文的开源实现,提出全整数注意力流水线,在ARM CPU上实现大语言模型(LLM)与视觉Transformer(ViT)的高保真高速推理,旨在解决边缘设备部署Transformer模型的算力困境。

2

章节 02

背景:边缘AI的算力与注意力量化挑战

随着LLM和ViT普及,边缘设备部署面临浮点运算开销大、延迟高、能耗大的问题。量化技术虽能优化,但现有方案常忽略注意力机制的复杂运算;注意力机制的矩阵乘法和Softmax在整数量化下易出现精度损失和数值溢出,如何平衡精度与效率是开放问题。

3

章节 03

核心创新:全整数注意力流水线与关键优化

IntAttention的核心是全整数注意力流水线,覆盖Query-Key点积、Softmax归一化、Attention-Value乘法全流程。关键优化包括:1.整数Softmax用查找表(LUT)和定点数运算替代浮点指数与除法;2.逐层动态量化,根据每层激活分布调整缩放因子和零点;3.分块内存布局优化,提升缓存命中率。

4

章节 04

实验结果:速度与精度的双赢

在LLaMA、BERT、ViT等模型及高通骁龙、苹果M系列ARM CPU上测试:相比浮点基线,推理速度提升2-4倍,内存占用减少约50%;精度方面,在GLUE、ImageNet等基准测试中与浮点模型准确率相差不到1%。

5

章节 05

应用场景:移动智能助手、实时视觉理解等

IntAttention可应用于:1.移动智能助手,本地运行LLM实现隐私保护与低延迟;2.实时视觉理解,摄像头端运行ViT用于安防、自动驾驶辅助;3.物联网设备,嵌入式设备运行Transformer模型升级智能家居、工业检测。

6

章节 06

开源生态:代码开源,支持多平台与模型转换

IntAttention代码完全开源,提供PyTorch和ONNX格式模型转换工具;支持ARM NEON和x86 AVX2优化内核;官方提供教程、预训练模型及完整部署流程,社区积极扩展多模态模型支持。

7

章节 07

技术展望:硬件感知优化与多平台扩展

IntAttention代表边缘AI推理优化的硬件感知方向,未来将扩展到RISC-V、NPU等平台,并结合稀疏化、剪枝技术,进一步释放边缘设备AI潜力。