正文

BlockQuant：基于球面几何的块向量量化新方法

统一理论分析澄清了EDEN、RabitQ等方法的优势依赖具体失真准则，提出的BlockQuant通过块级球面量化更忠实保持旋转嵌入几何，在MSE和内积失真上均优于基线方法

向量量化旋转式量化BlockQuant球面几何LLM推理KV缓存嵌入压缩近似搜索

发布时间 2026/05/19 23:18最近活动 2026/05/20 16:26预计阅读 3 分钟

章节 01

BlockQuant：基于球面几何的块向量量化新方法（导读）

核心观点提炼

统一理论分析澄清：EDEN、RabitQ等旋转式量化方法的优势并非绝对，而是依赖具体失真准则（如MSE、内积失真、高概率控制）。
提出BlockQuant：通过块级球面量化更忠实地保持旋转嵌入的几何结构，在MSE和内积失真上均优于EDEN、RabitQ等基线方法。
适用场景：长上下文LLM推理（KV缓存压缩）、向量数据库检索、边缘设备部署等。

章节 02

背景：向量量化的重要性与旋转式量化的困惑

向量量化的重要性

向量量化是可扩展AI的基础设施，应用于：

内存高效存储：压缩高维向量减少存储占用；
快速检索：加速近似最近邻搜索的相似度计算；
压缩推理：降低边缘设备大模型推理内存需求（如LLM的KV缓存可达数十GB）。

旋转式量化的困惑

旋转式量化（随机正交变换使误差均匀分布）兴起，代表方法有EDEN、RabitQ、TurboQuant，但比较困难：

不同论文用不同失真准则（MSE、内积失真）、概率框架（期望vs高概率）、实现假设；
实践者难以判断特定场景下最优方法。

章节 03

方法：统一理论比较与BlockQuant创新

统一理论比较

研究团队提供统一分析，明确各方法优势依赖准则：

方法	MSE	期望内积	高概率控制
EDEN	优秀	优秀	良好
TurboQuant	优秀	良好	良好
RabitQ	良好	良好	优秀

结论：方法选择需基于应用需求，而非单一指标。

BlockQuant创新

核心思想：块级球面量化（传统为坐标级）：

旋转后向量分块；
每块视为高维球面上的点；
球面量化保持块内几何关系。

算法流程：随机旋转→分块→球面映射→球面量化→编码存储。

优势：更忠实保留旋转嵌入的球面几何（高维向量倾向分布在球面上）。

章节 04

证据：BlockQuant的理论保证与实验验证

理论保证

BlockQuant在关键失真准则下的优势：

重建MSE界：给定比特预算，期望MSE严格优于坐标级基线；
期望内积失真界：量化后向量内积误差期望更小；
理论结果不依赖特定数据分布，适用于高维嵌入场景。

实验验证

真实数据集

在文本嵌入（OpenAI、Sentence-BERT）、图像嵌入（CLIP）、推荐系统嵌入上，BlockQuant在MSE和内积失真均优于基线。

LLM长上下文推理

相同比特率下保持更高推理精度；
相同精度下用更低比特率（如3-bit vs 4-bit）；
长序列场景内存节省提升吞吐量显著。

计算效率

编码速度略低于坐标级，但实用；
解码速度与基线相当；
长上下文场景内存带宽节省收益超编码开销。

章节 05

实践意义：应用场景与技术协同

实践应用场景

长上下文LLM部署：KV缓存量化（内存瓶颈、精度敏感，BlockQuant实现高压缩比且保精度）；
向量数据库：降低存储成本，提升检索精度（改进内积失真保证）；
边缘设备部署：极低比特率下保持可用精度，适配资源限制。

技术协同

BlockQuant可与其他压缩技术结合：

量化协同：与权重量化混合使用，支持混合精度；
剪枝协同：结构化剪枝减少参数量，BlockQuant压缩剩余表示；
蒸馏协同：蒸馏小模型后，BlockQuant进一步压缩。

章节 06

局限性与未来方向

当前局限性

块大小选择：最优值依赖数据和任务；
旋转开销：极高维场景下随机正交变换成本不可忽视；
硬件优化：未充分利用GPU张量核心等专用指令。

未来方向

自适应块大小：动态调整块大小；
学习旋转：数据驱动学习最优旋转（非随机）；
非均匀量化：球面非均匀量化点匹配数据分布；
端到端训练：整合BlockQuant到模型训练流程，联合优化。

核心回顾：BlockQuant通过块级球面量化突破坐标级局限，在多场景展现实用价值，未来可通过自适应、学习旋转等方向进一步优化。