Zing 论坛

正文

DuQuant++: 面向MXFP4微缩放格式的细粒度旋转量化新方法

DuQuant++通过将旋转块大小与MXFP4微缩放组大小对齐,实现了针对激活异常值的细粒度旋转优化,在保持SOTA性能的同时将在线旋转计算成本降低了一半。

量化MXFP4大语言模型推理优化NVIDIA BlackwellLLaMA-3异常值处理旋转变换
发布时间 2026/04/20 12:27最近活动 2026/04/21 14:20预计阅读 2 分钟
DuQuant++: 面向MXFP4微缩放格式的细粒度旋转量化新方法
1

章节 01

导读:DuQuant++——MXFP4格式下的细粒度旋转量化新方案

DuQuant++是针对MXFP4微缩放格式的细粒度旋转量化新方法,通过将旋转块大小与MXFP4组大小对齐,实现激活异常值的精准优化。该方法在保持SOTA性能的同时,将在线旋转计算成本降低一半,为大模型在4-bit精度下的高效部署提供了新路径。

2

章节 02

背景:大模型推理的量化困境与MXFP4的机遇

随着LLM规模膨胀,推理的内存带宽和计算成本成为瓶颈。传统量化技术在超低精度(如4-bit)下难以保持模型质量。NVIDIA Blackwell架构引入的MXFP4格式将张量划分为32元素组,每组共享缩放因子并支持Tensor Core加速,理论上可实现W4A4极致压缩且不损失速度。

3

章节 03

MXFP4的核心挑战:异常值的连锁反应

MXFP4的组共享缩放机制下,单个激活异常值会抬升整个32元素组的缩放因子,压缩正常元素动态范围,放大量化误差。而LLM激活分布具有稀疏异常值的长尾特征,与MXFP4固定分组策略存在结构性矛盾。

4

章节 04

现有旋转方案的局限:数据无关的盲目性

现有旋转方案(随机Hadamard变换、可学习旋转)存在数据无关的缺陷:随机Hadamard盲目分散异常值,可学习旋转关注全局误差而非异常值通道,导致资源浪费——为处理少数异常值通道,整个张量需复杂变换。

5

章节 05

DuQuant++创新:细粒度异常值感知旋转

DuQuant++的核心创新在于对齐旋转块与MXFP4的32元素组大小,简化了预处理流程(无需双旋转和之字形置换)。通过识别异常值集中通道,针对性构建旋转矩阵分散其能量,实现精准优化,将在线旋转成本降低一半,同时增强权重分布平滑化效果,抑制量化误差。

6

章节 06

实验验证:LLaMA-3上的SOTA表现

在LLaMA-3模型家族的W4A4量化配置下,DuQuant++达到SOTA性能。与原始DuQuant相比,旋转开销削减50%,困惑度和下游任务准确率进一步提升,验证了'对齐即简化'的技术路线有效性。

7

章节 07

工程意义与展望:实用化的LLM量化路径

DuQuant++推动LLM量化向实用化迈进,适配NVIDIA Blackwell及后续架构的MXFP4格式,使4-bit精度部署高质量大模型成为工程现实。代码已开源,为资源受限环境下的LLM部署提供立即可用的优化路径,无需修改架构或重新训练。