章节 01
DuQuant++:解决MXFP4激活异常值的细粒度旋转量化新方法(导读)
研究者针对MXFP4格式的激活异常值问题,提出DuQuant++方法,通过单轮异常值感知旋转实现更高效的W4A4量化,在LLaMA-3模型上达到SOTA性能,同时在线计算成本减半,适配NVIDIA Blackwell架构。
正文
研究者针对MXFP4格式的激活异常值问题,提出DuQuant++方法,通过单轮异常值感知旋转实现更高效的W4A4量化,在LLaMA-3模型上达到SOTA性能。
章节 01
研究者针对MXFP4格式的激活异常值问题,提出DuQuant++方法,通过单轮异常值感知旋转实现更高效的W4A4量化,在LLaMA-3模型上达到SOTA性能,同时在线计算成本减半,适配NVIDIA Blackwell架构。
章节 02
大模型部署面临存储与计算压力,量化是关键技术,但MXFP4格式(32元素块共享缩放因子、Blackwell原生支持)存在激活异常值问题:单个异常值迫使块缩放因子增大,挤压其他元素动态范围。
章节 03
现有旋转方法存在缺陷:随机Hadamard旋转无数据针对性,效果有限;可学习旋转需额外训练,泛化性存疑,两者均未利用异常值分布信息。
章节 04
章节 05
单轮旋转使在线计算成本减半;LLaMA-3 W4A4量化下,DuQuant++在常识推理、代码生成等多任务中超越基线,达到SOTA水平。
章节 06
适配NVIDIA Blackwell架构(MXFP4原生支持);实践建议:MXFP4适合Blackwell硬件,异常值处理是量化关键,算法需与格式分组结构对齐。
章节 07
扩展到其他低精度格式,结合平滑/裁剪等技术,探索W2A2/W3A3等激进配置,开发硬件友好的旋转实现。