Zing 论坛

正文

MUXQ:通过低秩异常值分解实现混合到统一的矩阵量化

本文介绍了MUXQ量化方法,通过检测激活中的异常通道并引入辅助矩阵重新分配异常幅度,解决了大模型量化中的异常值问题,在GPT-2系列模型上实现了INT8量化精度接近FP16的效果。

模型量化异常值分解INT8量化端侧部署NPU加速MUXQ
发布时间 2026/04/06 22:13最近活动 2026/04/07 15:49预计阅读 2 分钟
MUXQ:通过低秩异常值分解实现混合到统一的矩阵量化
1

章节 01

MUXQ:通过低秩异常值分解实现高精度INT8量化的新方法

本文介绍MUXQ量化方法,针对大模型量化中的异常值问题,通过检测激活异常通道并引入低秩辅助矩阵重新分配异常幅度,解决现有方法局限。该方法在GPT-2系列模型上实现INT8量化精度接近FP16,且保持统一计算结构,适合端侧NPU部署加速。

2

章节 02

大模型量化的异常值困境与现有方法局限

大模型端侧部署需INT8量化以利用NPU硬件优化,但激活中的异常通道(少数通道幅度远大于其他)会放大量化尺度,压缩正常数值精度。现有方法如LLM.int8()采用混合精度破坏计算图,SmoothQuant仅迁移量化难度,ZeroQuant精度受影响,均未根本解决异常值问题。

3

章节 03

MUXQ核心思想:主动重新分配异常值

MUXQ通过引入低秩辅助矩阵,将异常通道的幅度分散到更多通道,摊薄异常影响。其优势包括:保持统一INT8计算结构(硬件友好)、低秩辅助矩阵开销可忽略、可与其他量化技术叠加协同优化。

4

章节 04

MUXQ技术实现的关键步骤

1.异常通道检测:统计各通道激活统计量(最大值、分位数)识别异常通道;2.低秩辅助矩阵设计:采用U*V^T低秩形式,线性变换分散异常幅度;3.联合优化:端到端学习辅助矩阵参数,最小化量化损失同时约束低秩复杂度。

5

章节 05

MUXQ实验验证:精度接近FP16且开销可控

在GPT-2系列(0.1B/0.3B/0.7B)与WikiText-2数据集上,MUXQ优于朴素量化:per-tensor INT8量化下精度接近FP16(困惑度差距小);低秩辅助矩阵带来的延迟增加可接受;相比LLM.int8()保持统一计算图,比SmoothQuant更彻底解决异常值问题。

6

章节 06

MUXQ的技术意义与应用价值

MUXQ突破端侧部署瓶颈,使INT8量化可行;统一计算图充分利用NPU加速;模块化设计易集成现有框架;低秩思想可扩展到其他模型和层,推动大模型端侧普惠化。

7

章节 07

MUXQ的局限与未来研究方向

当前仅在GPT-2验证,更大模型(7B/13B)需进一步验证;辅助矩阵学习需校准数据,极端数据受限场景待研究。未来方向:更高效异常检测、自适应秩选择、扩展到其他神经网络架构。