Zing 论坛

正文

ReSET:基于推理步骤感知的NVFP4量化温度缩放方法

ReSET通过在线估计推理步骤级不确定性并自适应调整解码温度,解决了NVFP4量化在推理模型中的精度损失问题,同时设计了CUDA内核实现2.5倍加速。

NVFP4量化推理温度缩放推理模型CUDA优化低精度推理LRM
发布时间 2026/06/11 19:47最近活动 2026/06/12 09:22预计阅读 2 分钟
ReSET:基于推理步骤感知的NVFP4量化温度缩放方法
1

章节 01

ReSET方法导读:解决NVFP4量化推理精度损失并实现高效加速

ReSET是AIHA Lab团队提出的基于推理步骤感知的NVFP4量化温度缩放方法,旨在解决NVFP4量化在推理模型中存在的精度损失问题,同时通过CUDA内核优化实现显著加速。该方法于2026年6月11日在arXiv发布,开源代码可在https://github.com/aiha-lab/ReSET获取。核心亮点包括:在线估计推理步骤级不确定性并自适应调整解码温度,以及针对小批量自回归解码的CUDA内核优化(相比NVFP4 vLLM实现2.5倍加速)。

2

章节 02

推理模型的效率困境与NVFP4量化的挑战

大型推理模型(LRMs)虽提升复杂问题求解能力,但推理成本高(更多token生成、内存占用大)。NVFP4作为硬件支持的低精度方案,可降低计算和内存成本,但直接应用于推理模型存在两大限制:1. 量化导致推理精度下降;2. 现有NVFP4内核在小批量自回归解码场景下延迟优势未充分发挥。进一步分析发现,量化对推理过程的影响包括:低熵符号token错误采样概率增加(关键决策点易出错)、高不确定性步骤模型过度集中于少数token(失去多样性)。

3

章节 03

ReSET核心机制:步骤感知温度缩放与CUDA内核优化

步骤级温度缩放:基于推理步骤熵的自适应温度调整,结合token级熵(当前步骤候选token的不确定性分布)和步骤级熵(整个推理步骤的全局不确定性),动态调整温度——模型过于自信时提高温度增加多样性,过度分散时降低温度聚焦关键选项。

CUDA内核优化:设计针对小批量自回归解码的small-M NVFP4内核,通过精细线程调度和内存访问模式优化,解决传统NVFP4实现小批量延迟瓶颈问题。

4

章节 04

实验验证:ReSET在精度与效率上的双重提升

实验结果显示:

  • 精度方面:在多个推理基准和不同模型规模上,ReSET相比NVFP4基线提升约2个百分点,缩小与全精度推理的性能差距;
  • 效率方面:CUDA内核相比NVFP4 vLLM实现2.5倍内核级加速,端到端解码相比BF16基线实现约2倍加速。
5

章节 05

技术启示与未来研究方向

技术启示:量化技术在推理模型应用中需考虑推理过程不确定性的层次结构,简单token级处理无法捕捉;通过算法设计与底层优化,可在保持低精度效率的同时最小化模型能力损害。

未来方向:扩展到其他低精度格式(如INT4、FP8),或与投机解码、早停策略等推理优化技术结合,进一步提升部署效率。