正文

BPDQ：基于位平面分解的可变量化网格技术，让大语言模型在2比特精度下依然保持高性能

ICML 2026 接收论文 BPDQ 提出了一种突破性的后训练量化方法，通过位平面分解构建可变量化网格，在2-3比特低精度场景下显著优于传统PTQ方法，实现了Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率。

大语言模型量化后训练量化PTQ位平面分解低比特推理模型压缩ICML 2026

发布时间 2026/05/16 11:41最近活动 2026/05/16 11:47预计阅读 2 分钟

BPDQ：基于位平面分解的可变量化网格技术，让大语言模型在2比特精度下依然保持高性能

章节 01

BPDQ：2比特低精度下大模型高性能推理的突破性方法

ICML 2026接收论文BPDQ提出基于位平面分解的可变量化网格技术，是一种突破性后训练量化方法。该方法在2-3比特低精度场景下显著优于传统PTQ方法，实现Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率，为低资源场景大模型部署提供新路径。

章节 02

大模型推理的内存瓶颈与传统PTQ局限

随着大语言模型参数规模膨胀，推理内存占用和带宽需求成为部署核心挑战。Qwen2.5-72B在16位浮点精度下需超140GB显存，远超消费级GPU容量。后训练量化（PTQ）因无需重训练受青睐，但传统PTQ在2-3比特精度下模型质量急剧下降，限制低资源场景部署。

章节 03

固定量化网格的形状不变性限制

现有PTQ方法对每个权重组强制使用形状不变的量化网格（如UINT2均匀分布），无法自适应复杂权重分布，导致低比特场景量化误差放大。研究人员面临两难：要么高比特大内存开销，要么低比特严重精度损失。

章节 04

BPDQ核心创新：可变量化网格设计

Bit-Plane Decomposition Quantization（BPDQ）通过位平面分解与标量系数构建可变量化网格，突破形状不变性桎梏。将权重分解为多比特平面（各携带不同信息量），动态组合标量系数，使网格自适应数据分布，扩展可行解空间，并保持与Hessian诱导几何结构一致性。

章节 05

算法机制：迭代优化与误差补偿

BPDQ采用迭代优化策略，利用近似二阶信息（Hessian矩阵）调整位平面系数，通过渐进式误差补偿机制最小化输出层差异，确保量化模型下游任务性能。论文附录提供收敛性分析，证明过程理论稳定性与一致性。

章节 06

实验证据：2比特精度的突破性表现

BPDQ在多项基准测试中表现卓越：Qwen2.5-72B 2比特量化后，单张RTX3090峰值显存仅22.69GB，GSM8K准确率达83.85%（较16位精度90.83%仅降7个百分点）；Llama-2-7B在2/3比特配置下也获满意性能，检查点已发布于Hugging Face Hub。

章节 07

工程实现与理论贡献

工程上，BPDQ以补丁集成于GPTQModel v5.7.0，兼容现有量化生态，提供完整量化-评估工作流脚本（支持C4校准、lm-evaluation-harness评估），YAML配置灵活，支持eval_only模式。理论上，证明可变量化网格扩展可行解集，量化过程与Hessian诱导几何一致，获ICML2026认可。

章节 08