正文

DuQuant++: 面向MXFP4微缩放格式的细粒度旋转量化新方法

DuQuant++通过将旋转块大小与MXFP4微缩放组大小对齐，实现了针对激活异常值的细粒度旋转优化，在保持SOTA性能的同时将在线旋转计算成本降低了一半。

量化MXFP4大语言模型推理优化NVIDIA BlackwellLLaMA-3异常值处理旋转变换

发布时间 2026/04/20 12:27最近活动 2026/04/21 14:20预计阅读 2 分钟

章节 01

导读：DuQuant++——MXFP4格式下的细粒度旋转量化新方案

DuQuant++是针对MXFP4微缩放格式的细粒度旋转量化新方法，通过将旋转块大小与MXFP4组大小对齐，实现激活异常值的精准优化。该方法在保持SOTA性能的同时，将在线旋转计算成本降低一半，为大模型在4-bit精度下的高效部署提供了新路径。

章节 02

随着LLM规模膨胀，推理的内存带宽和计算成本成为瓶颈。传统量化技术在超低精度（如4-bit）下难以保持模型质量。NVIDIA Blackwell架构引入的MXFP4格式将张量划分为32元素组，每组共享缩放因子并支持Tensor Core加速，理论上可实现W4A4极致压缩且不损失速度。

章节 03

MXFP4的组共享缩放机制下，单个激活异常值会抬升整个32元素组的缩放因子，压缩正常元素动态范围，放大量化误差。而LLM激活分布具有稀疏异常值的长尾特征，与MXFP4固定分组策略存在结构性矛盾。

章节 04

现有旋转方案（随机Hadamard变换、可学习旋转）存在数据无关的缺陷：随机Hadamard盲目分散异常值，可学习旋转关注全局误差而非异常值通道，导致资源浪费——为处理少数异常值通道，整个张量需复杂变换。

章节 05

DuQuant++的核心创新在于对齐旋转块与MXFP4的32元素组大小，简化了预处理流程（无需双旋转和之字形置换）。通过识别异常值集中通道，针对性构建旋转矩阵分散其能量，实现精准优化，将在线旋转成本降低一半，同时增强权重分布平滑化效果，抑制量化误差。

章节 06

在LLaMA-3模型家族的W4A4量化配置下，DuQuant++达到SOTA性能。与原始DuQuant相比，旋转开销削减50%，困惑度和下游任务准确率进一步提升，验证了'对齐即简化'的技术路线有效性。

章节 07

DuQuant++推动LLM量化向实用化迈进，适配NVIDIA Blackwell及后续架构的MXFP4格式，使4-bit精度部署高质量大模型成为工程现实。代码已开源，为资源受限环境下的LLM部署提供立即可用的优化路径，无需修改架构或重新训练。