Zing 论坛

正文

BPDQ:基于位平面分解的可变量化网格技术,让大语言模型在2比特精度下依然保持高性能

ICML 2026 接收论文 BPDQ 提出了一种突破性的后训练量化方法,通过位平面分解构建可变量化网格,在2-3比特低精度场景下显著优于传统PTQ方法,实现了Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率。

大语言模型量化后训练量化PTQ位平面分解低比特推理模型压缩ICML 2026
发布时间 2026/05/16 11:41最近活动 2026/05/16 11:47预计阅读 2 分钟
BPDQ:基于位平面分解的可变量化网格技术,让大语言模型在2比特精度下依然保持高性能
1

章节 01

BPDQ:2比特低精度下大模型高性能推理的突破性方法

ICML 2026接收论文BPDQ提出基于位平面分解的可变量化网格技术,是一种突破性后训练量化方法。该方法在2-3比特低精度场景下显著优于传统PTQ方法,实现Qwen2.5-72B在单张RTX 3090上83.85%的GSM8K准确率,为低资源场景大模型部署提供新路径。

2

章节 02

大模型推理的内存瓶颈与传统PTQ局限

随着大语言模型参数规模膨胀,推理内存占用和带宽需求成为部署核心挑战。Qwen2.5-72B在16位浮点精度下需超140GB显存,远超消费级GPU容量。后训练量化(PTQ)因无需重训练受青睐,但传统PTQ在2-3比特精度下模型质量急剧下降,限制低资源场景部署。

3

章节 03

固定量化网格的形状不变性限制

现有PTQ方法对每个权重组强制使用形状不变的量化网格(如UINT2均匀分布),无法自适应复杂权重分布,导致低比特场景量化误差放大。研究人员面临两难:要么高比特大内存开销,要么低比特严重精度损失。

4

章节 04

BPDQ核心创新:可变量化网格设计

Bit-Plane Decomposition Quantization(BPDQ)通过位平面分解与标量系数构建可变量化网格,突破形状不变性桎梏。将权重分解为多比特平面(各携带不同信息量),动态组合标量系数,使网格自适应数据分布,扩展可行解空间,并保持与Hessian诱导几何结构一致性。

5

章节 05

算法机制:迭代优化与误差补偿

BPDQ采用迭代优化策略,利用近似二阶信息(Hessian矩阵)调整位平面系数,通过渐进式误差补偿机制最小化输出层差异,确保量化模型下游任务性能。论文附录提供收敛性分析,证明过程理论稳定性与一致性。

6

章节 06

实验证据:2比特精度的突破性表现

BPDQ在多项基准测试中表现卓越:Qwen2.5-72B 2比特量化后,单张RTX3090峰值显存仅22.69GB,GSM8K准确率达83.85%(较16位精度90.83%仅降7个百分点);Llama-2-7B在2/3比特配置下也获满意性能,检查点已发布于Hugging Face Hub。

7

章节 07

工程实现与理论贡献

工程上,BPDQ以补丁集成于GPTQModel v5.7.0,兼容现有量化生态,提供完整量化-评估工作流脚本(支持C4校准、lm-evaluation-harness评估),YAML配置灵活,支持eval_only模式。理论上,证明可变量化网格扩展可行解集,量化过程与Hessian诱导几何一致,获ICML2026认可。

8

章节 08

结论与展望:低比特量化新范式

BPDQ打破固定网格假设,实现2-3比特场景性能与效率平衡,让消费级硬件运行大模型,为边缘计算/移动设备本地推理开辟可能。期待未来更多兼顾理论深度与工程实用性的量化创新。