章节 01
MUXQ:通过低秩异常值分解实现高精度INT8量化的新方法
本文介绍MUXQ量化方法,针对大模型量化中的异常值问题,通过检测激活异常通道并引入低秩辅助矩阵重新分配异常幅度,解决现有方法局限。该方法在GPT-2系列模型上实现INT8量化精度接近FP16,且保持统一计算结构,适合端侧NPU部署加速。
正文
本文介绍了MUXQ量化方法,通过检测激活中的异常通道并引入辅助矩阵重新分配异常幅度,解决了大模型量化中的异常值问题,在GPT-2系列模型上实现了INT8量化精度接近FP16的效果。
章节 01
本文介绍MUXQ量化方法,针对大模型量化中的异常值问题,通过检测激活异常通道并引入低秩辅助矩阵重新分配异常幅度,解决现有方法局限。该方法在GPT-2系列模型上实现INT8量化精度接近FP16,且保持统一计算结构,适合端侧NPU部署加速。
章节 02
大模型端侧部署需INT8量化以利用NPU硬件优化,但激活中的异常通道(少数通道幅度远大于其他)会放大量化尺度,压缩正常数值精度。现有方法如LLM.int8()采用混合精度破坏计算图,SmoothQuant仅迁移量化难度,ZeroQuant精度受影响,均未根本解决异常值问题。
章节 03
MUXQ通过引入低秩辅助矩阵,将异常通道的幅度分散到更多通道,摊薄异常影响。其优势包括:保持统一INT8计算结构(硬件友好)、低秩辅助矩阵开销可忽略、可与其他量化技术叠加协同优化。
章节 04
1.异常通道检测:统计各通道激活统计量(最大值、分位数)识别异常通道;2.低秩辅助矩阵设计:采用U*V^T低秩形式,线性变换分散异常幅度;3.联合优化:端到端学习辅助矩阵参数,最小化量化损失同时约束低秩复杂度。
章节 05
在GPT-2系列(0.1B/0.3B/0.7B)与WikiText-2数据集上,MUXQ优于朴素量化:per-tensor INT8量化下精度接近FP16(困惑度差距小);低秩辅助矩阵带来的延迟增加可接受;相比LLM.int8()保持统一计算图,比SmoothQuant更彻底解决异常值问题。
章节 06
MUXQ突破端侧部署瓶颈,使INT8量化可行;统一计算图充分利用NPU加速;模块化设计易集成现有框架;低秩思想可扩展到其他模型和层,推动大模型端侧普惠化。
章节 07
当前仅在GPT-2验证,更大模型(7B/13B)需进一步验证;辅助矩阵学习需校准数据,极端数据受限场景待研究。未来方向:更高效异常检测、自适应秩选择、扩展到其他神经网络架构。