章节 01
BPDQ:2比特低精度下大模型高性能推理的突破性方法
ICML 2026接收论文BPDQ提出基于位平面分解的可变量化网格技术,是一种突破性后训练量化方法。该方法在2-3比特低精度场景下显著优于传统PTQ方法,实现Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率,为低资源场景大模型部署提供新路径。
正文
ICML 2026 接收论文 BPDQ 提出了一种突破性的后训练量化方法,通过位平面分解构建可变量化网格,在2-3比特低精度场景下显著优于传统PTQ方法,实现了Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率。
章节 01
ICML 2026接收论文BPDQ提出基于位平面分解的可变量化网格技术,是一种突破性后训练量化方法。该方法在2-3比特低精度场景下显著优于传统PTQ方法,实现Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率,为低资源场景大模型部署提供新路径。
章节 02
随着大语言模型参数规模膨胀,推理内存占用和带宽需求成为部署核心挑战。Qwen2.5-72B在16位浮点精度下需超140GB显存,远超消费级GPU容量。后训练量化(PTQ)因无需重训练受青睐,但传统PTQ在2-3比特精度下模型质量急剧下降,限制低资源场景部署。
章节 03
现有PTQ方法对每个权重组强制使用形状不变的量化网格(如UINT2均匀分布),无法自适应复杂权重分布,导致低比特场景量化误差放大。研究人员面临两难:要么高比特大内存开销,要么低比特严重精度损失。
章节 04
Bit-Plane Decomposition Quantization(BPDQ)通过位平面分解与标量系数构建可变量化网格,突破形状不变性桎梏。将权重分解为多比特平面(各携带不同信息量),动态组合标量系数,使网格自适应数据分布,扩展可行解空间,并保持与Hessian诱导几何结构一致性。
章节 05
BPDQ采用迭代优化策略,利用近似二阶信息(Hessian矩阵)调整位平面系数,通过渐进式误差补偿机制最小化输出层差异,确保量化模型下游任务性能。论文附录提供收敛性分析,证明过程理论稳定性与一致性。
章节 06
BPDQ在多项基准测试中表现卓越:Qwen2.5-72B 2比特量化后,单张RTX3090峰值显存仅22.69GB,GSM8K准确率达83.85%(较16位精度90.83%仅降7个百分点);Llama-2-7B在2/3比特配置下也获满意性能,检查点已发布于Hugging Face Hub。
章节 07
工程上,BPDQ以补丁集成于GPTQModel v5.7.0,兼容现有量化生态,提供完整量化-评估工作流脚本(支持C4校准、lm-evaluation-harness评估),YAML配置灵活,支持eval_only模式。理论上,证明可变量化网格扩展可行解集,量化过程与Hessian诱导几何一致,获ICML2026认可。
章节 08
BPDQ打破固定网格假设,实现2-3比特场景性能与效率平衡,让消费级硬件运行大模型,为边缘计算/移动设备本地推理开辟可能。期待未来更多兼顾理论深度与工程实用性的量化创新。