章节 01
导读:DuQuant++——MXFP4格式下的细粒度旋转量化新方案
DuQuant++是针对MXFP4微缩放格式的细粒度旋转量化新方法,通过将旋转块大小与MXFP4组大小对齐,实现激活异常值的精准优化。该方法在保持SOTA性能的同时,将在线旋转计算成本降低一半,为大模型在4-bit精度下的高效部署提供了新路径。
正文
DuQuant++通过将旋转块大小与MXFP4微缩放组大小对齐,实现了针对激活异常值的细粒度旋转优化,在保持SOTA性能的同时将在线旋转计算成本降低了一半。
章节 01
DuQuant++是针对MXFP4微缩放格式的细粒度旋转量化新方法,通过将旋转块大小与MXFP4组大小对齐,实现激活异常值的精准优化。该方法在保持SOTA性能的同时,将在线旋转计算成本降低一半,为大模型在4-bit精度下的高效部署提供了新路径。
章节 02
随着LLM规模膨胀,推理的内存带宽和计算成本成为瓶颈。传统量化技术在超低精度(如4-bit)下难以保持模型质量。NVIDIA Blackwell架构引入的MXFP4格式将张量划分为32元素组,每组共享缩放因子并支持Tensor Core加速,理论上可实现W4A4极致压缩且不损失速度。
章节 03
MXFP4的组共享缩放机制下,单个激活异常值会抬升整个32元素组的缩放因子,压缩正常元素动态范围,放大量化误差。而LLM激活分布具有稀疏异常值的长尾特征,与MXFP4固定分组策略存在结构性矛盾。
章节 04
现有旋转方案(随机Hadamard变换、可学习旋转)存在数据无关的缺陷:随机Hadamard盲目分散异常值,可学习旋转关注全局误差而非异常值通道,导致资源浪费——为处理少数异常值通道,整个张量需复杂变换。
章节 05
DuQuant++的核心创新在于对齐旋转块与MXFP4的32元素组大小,简化了预处理流程(无需双旋转和之字形置换)。通过识别异常值集中通道,针对性构建旋转矩阵分散其能量,实现精准优化,将在线旋转成本降低一半,同时增强权重分布平滑化效果,抑制量化误差。
章节 06
在LLaMA-3模型家族的W4A4量化配置下,DuQuant++达到SOTA性能。与原始DuQuant相比,旋转开销削减50%,困惑度和下游任务准确率进一步提升,验证了'对齐即简化'的技术路线有效性。
章节 07
DuQuant++推动LLM量化向实用化迈进,适配NVIDIA Blackwell及后续架构的MXFP4格式,使4-bit精度部署高质量大模型成为工程现实。代码已开源,为资源受限环境下的LLM部署提供立即可用的优化路径,无需修改架构或重新训练。