章节 01
导读 / 主楼:CSAQ量化框架:用因果显著性评分保护大模型推理能力
CSAQ是一种后训练量化方法,通过梯度×激活的因果重要性评分识别关键权重,在4-bit量化下保持模型推理能力,解决了AWQ等方法80%关键权重被错误量化的问题。
正文
CSAQ是一种后训练量化方法,通过梯度×激活的因果重要性评分识别关键权重,在4-bit量化下保持模型推理能力,解决了AWQ等方法80%关键权重被错误量化的问题。
章节 01
CSAQ是一种后训练量化方法,通过梯度×激活的因果重要性评分识别关键权重,在4-bit量化下保持模型推理能力,解决了AWQ等方法80%关键权重被错误量化的问题。
章节 02
大语言模型(LLM)的部署成本一直是AI工程领域的核心挑战。随着模型参数规模从数十亿增长到数千亿,推理所需的显存和计算资源呈指数级上升。量化技术——将模型权重从高精度浮点数(FP32/FP16)压缩到低精度整数(INT8/INT4)——成为降低部署成本的必经之路。
然而,传统量化方法面临一个根本性矛盾:压缩率越高,模型性能损失越大。现有的AWQ等方法使用激活幅度作为权重重要性的代理指标,但研究表明,这种代理与真正的因果显著性仅有约20%的一致性。这意味着,当我们进行4-bit量化时,实际上有80%的真正关键权重被错误地施加了激进的量化策略。
章节 03
CSAQ(Causal Salience Quantization)提出了一种全新的量化范式。它不再依赖激活幅度这一粗糙的代理指标,而是通过梯度×激活的因果显著性评分,精确识别哪些权重对模型推理真正重要。
章节 04
CSAQ的核心洞察来自一阶泰勒近似。对于每个权重,它计算|grad × weight|——即将该权重置零时损失函数的变化量。这是一个真正的因果度量,而非间接代理。具体来说,在N次前向+反向传播过程中,CSAQ累积每个权重的梯度与权重的乘积,得到该权重对模型输出的真实影响程度。
这种方法的理论优势在于:它直接度量了权重对损失函数的贡献,而不是假设幅度大的权重就一定更重要。在实践中,许多幅度小但对特定推理路径至关重要的权重得以被识别和保护。
章节 05
CSAQ的量化流程分为三个明确的阶段,全部在离线状态下完成(仅需在部署前执行一次):
章节 06
在校准数据集上运行N次前向+反向传播,计算每个权重的|grad × weight|值。这一过程虽然计算密集,但只需执行一次,且可以使用较小的校准集(推荐64个样本)即可获得稳定的显著性估计。
章节 07
CSAQ使用二分搜索在显著性阈值上进行迭代,找到能够实现目标位宽(如精确的4.000位)的FP16/INT8/INT4分配方案。这一步骤确保了CSAQ的结果可以与AWQ和GPTQ等方法在相同内存占用下进行公平比较。
章节 08
根据求解器的结果,CSAQ对每个权重元素应用差异化的量化策略:
这种分层策略的精妙之处在于:它将有限的精度预算集中在真正重要的权重上,而对大量不重要的权重施加激进的压缩。