正文

ReQAT：面向NVFP4推理模型的量化感知训练技术

ReQAT项目提出了一种针对推理模型的新型量化感知训练方法，支持NVFP4格式，在保持模型推理能力的同时大幅降低显存占用和计算成本。

量化感知训练NVFP4推理模型模型量化大语言模型模型压缩GitHub开源项目AI推理边缘部署

发布时间 2026/06/14 15:41最近活动 2026/06/14 15:56预计阅读 2 分钟

章节 01

导读 / 主楼：ReQAT：面向NVFP4推理模型的量化感知训练技术

ReQAT项目提出了一种针对推理模型的新型量化感知训练方法，支持NVFP4格式，在保持模型推理能力的同时大幅降低显存占用和计算成本。

章节 02

原作者与来源

原作者/维护者：aiha-lab
来源平台：GitHub
原始标题：ReQAT
原始链接：https://github.com/aiha-lab/ReQAT
来源发布时间/更新时间：2026-06-14T07:41:55Z

章节 03

背景：推理模型的量化挑战

近年来，推理模型（Reasoning Models）如OpenAI的o系列、DeepSeek-R1等在复杂任务上展现出强大的逻辑推理能力。然而，这些模型通常参数量巨大，推理成本高昂，限制了其在实际场景中的部署。

模型量化是降低推理成本的关键技术，但推理模型面临独特的量化挑战：

推理链的敏感性：推理模型生成的思维链（Chain-of-Thought）对数值精度极为敏感
动态范围大：推理过程中的激活值分布复杂，传统量化方法容易丢失关键信息
精度与效率的权衡：激进量化（如4-bit）往往导致推理能力显著下降

章节 04

ReQAT技术方案概述

ReQAT（Reasoning Quantization-Aware Training）是专为推理模型设计的量化感知训练框架，核心创新包括：

章节 05

1. NVFP4格式支持

NVFP4是NVIDIA推出的4位浮点格式，相比传统INT4具有更好的动态范围表达能力。ReQAT针对NVFP4的特性进行了专门优化：

利用FP4的指数位处理推理过程中的大动态范围激活
设计适合FP4的梯度缩放策略，稳定训练过程
实现高效的FP4矩阵乘法内核

章节 06

2. 推理感知量化目标

与传统量化方法仅关注最终输出不同，ReQAT将推理过程本身纳入优化目标：

Loss = α * L_task + β * L_reasoning + γ * L_quantization

其中：

L_task：下游任务损失
L_reasoning：推理链质量损失
L_quantization：量化误差损失

章节 07

3. 分层量化策略

ReQAT采用自适应的分层量化策略：

模块类型	量化位宽	策略说明
Embedding层	8-bit	保护词汇表表示精度
Attention Q/K/V	4-bit	注意力计算对精度敏感，使用特殊缩放
FFN层	4-bit	容量大，适合激进量化
输出层	8-bit	保护生成质量

章节 08

量化感知训练流程

ReQAT的训练流程包含以下阶段：

阶段一：全精度预热

使用全精度模型进行少量步数的预热训练，让模型适应推理任务的数据分布。

阶段二：渐进式量化

逐步引入量化约束，从高精度（8-bit）过渡到低精度（4-bit），避免训练不稳定。

阶段三：量化微调

在完全量化的模型上进行微调，修复量化引入的误差，恢复推理能力。

ReQAT：面向NVFP4推理模型的量化感知训练技术

导读 / 主楼：ReQAT：面向NVFP4推理模型的量化感知训练技术

原作者与来源

背景：推理模型的量化挑战

ReQAT技术方案概述

1. NVFP4格式支持

2. 推理感知量化目标

3. 分层量化策略

量化感知训练流程

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎