正文

MUXQ：通过低秩异常值分解实现混合到统一的矩阵量化

本文介绍了MUXQ量化方法，通过检测激活中的异常通道并引入辅助矩阵重新分配异常幅度，解决了大模型量化中的异常值问题，在GPT-2系列模型上实现了INT8量化精度接近FP16的效果。

模型量化异常值分解INT8量化端侧部署NPU加速MUXQ

发布时间 2026/04/06 22:13最近活动 2026/04/07 15:49预计阅读 2 分钟

章节 01

MUXQ：通过低秩异常值分解实现高精度INT8量化的新方法

本文介绍MUXQ量化方法，针对大模型量化中的异常值问题，通过检测激活异常通道并引入低秩辅助矩阵重新分配异常幅度，解决现有方法局限。该方法在GPT-2系列模型上实现INT8量化精度接近FP16，且保持统一计算结构，适合端侧NPU部署加速。

章节 02

大模型端侧部署需INT8量化以利用NPU硬件优化，但激活中的异常通道（少数通道幅度远大于其他）会放大量化尺度，压缩正常数值精度。现有方法如LLM.int8()采用混合精度破坏计算图，SmoothQuant仅迁移量化难度，ZeroQuant精度受影响，均未根本解决异常值问题。

章节 03

MUXQ通过引入低秩辅助矩阵，将异常通道的幅度分散到更多通道，摊薄异常影响。其优势包括：保持统一INT8计算结构（硬件友好）、低秩辅助矩阵开销可忽略、可与其他量化技术叠加协同优化。

章节 04

1.异常通道检测：统计各通道激活统计量（最大值、分位数）识别异常通道；2.低秩辅助矩阵设计：采用U*V^T低秩形式，线性变换分散异常幅度；3.联合优化：端到端学习辅助矩阵参数，最小化量化损失同时约束低秩复杂度。

章节 05

在GPT-2系列（0.1B/0.3B/0.7B）与WikiText-2数据集上，MUXQ优于朴素量化：per-tensor INT8量化下精度接近FP16（困惑度差距小）；低秩辅助矩阵带来的延迟增加可接受；相比LLM.int8()保持统一计算图，比SmoothQuant更彻底解决异常值问题。

章节 06

MUXQ突破端侧部署瓶颈，使INT8量化可行；统一计算图充分利用NPU加速；模块化设计易集成现有框架；低秩思想可扩展到其他模型和层，推动大模型端侧普惠化。

章节 07

当前仅在GPT-2验证，更大模型（7B/13B）需进一步验证；辅助矩阵学习需校准数据，极端数据受限场景待研究。未来方向：更高效异常检测、自适应秩选择、扩展到其他神经网络架构。