Zing 论坛

正文

DuQuant++: 面向MXFP4微缩放的细粒度旋转量化新方法

研究者针对MXFP4格式的激活异常值问题,提出DuQuant++方法,通过单轮异常值感知旋转实现更高效的W4A4量化,在LLaMA-3模型上达到SOTA性能。

模型量化MXFP4DuQuant低精度推理激活异常值LLaMA-3NVIDIA Blackwell
发布时间 2026/04/20 12:27最近活动 2026/04/22 12:37预计阅读 1 分钟
DuQuant++: 面向MXFP4微缩放的细粒度旋转量化新方法
1

章节 01

DuQuant++:解决MXFP4激活异常值的细粒度旋转量化新方法(导读)

研究者针对MXFP4格式的激活异常值问题,提出DuQuant++方法,通过单轮异常值感知旋转实现更高效的W4A4量化,在LLaMA-3模型上达到SOTA性能,同时在线计算成本减半,适配NVIDIA Blackwell架构。

2

章节 02

背景:量化推理与MXFP4的挑战

大模型部署面临存储与计算压力,量化是关键技术,但MXFP4格式(32元素块共享缩放因子、Blackwell原生支持)存在激活异常值问题:单个异常值迫使块缩放因子增大,挤压其他元素动态范围。

3

章节 03

现有旋转方案的局限

现有旋转方法存在缺陷:随机Hadamard旋转无数据针对性,效果有限;可学习旋转需额外训练,泛化性存疑,两者均未利用异常值分布信息。

4

章节 04

DuQuant++的核心创新

  1. 块大小对齐MXFP4的32元素组;2. 单轮异常值感知旋转替代双轮流程;3. 基于激活数据统计构造旋转矩阵,精准分散异常值,保持正交性。
5

章节 05

效率优势与实验验证

单轮旋转使在线计算成本减半;LLaMA-3 W4A4量化下,DuQuant++在常识推理、代码生成等多任务中超越基线,达到SOTA水平。

6

章节 06

硬件协同与实践启示

适配NVIDIA Blackwell架构(MXFP4原生支持);实践建议:MXFP4适合Blackwell硬件,异常值处理是量化关键,算法需与格式分组结构对齐。

7

章节 07

未来方向

扩展到其他低精度格式,结合平滑/裁剪等技术,探索W2A2/W3A3等激进配置,开发硬件友好的旋转实现。