Zing 论坛

正文

Open-TQ-Metal:Apple Silicon上的融合压缩域注意力长上下文推理

Open-TQ-Metal是首个在Apple Silicon上实现融合压缩域注意力的方案,支持在单台64GB消费级Mac上运行128K上下文的Llama 3.1 70B模型。通过自定义Metal计算着色器直接在int4压缩表示上计算注意力,在128K上下文下实现48倍注意力加速和3.2倍内存压缩。

长上下文推理KV缓存量化Apple Silicon注意力机制端侧AI模型压缩消费级硬件
发布时间 2026/04/18 18:39最近活动 2026/04/21 10:23预计阅读 2 分钟
Open-TQ-Metal:Apple Silicon上的融合压缩域注意力长上下文推理
1

章节 01

Open-TQ-Metal:Apple Silicon端侧长上下文推理的突破性方案

Open-TQ-Metal是首个在Apple Silicon上实现融合压缩域注意力的方案,支持单台64GB消费级Mac运行128K上下文的Llama 3.1 70B模型。通过自定义Metal计算着色器直接在int4压缩表示上计算注意力,实现48倍注意力加速和3.2倍内存压缩,为消费级设备运行长上下文大模型提供可行路径。

2

章节 02

消费级硬件运行长上下文模型的核心挑战

大语言模型长上下文能力已扩展至128K甚至百万级token,但常被锁定在昂贵数据中心GPU。以Llama 3.1 70B为例,FP16精度下128K上下文KV缓存需约40GB内存,超多数消费级设备容量;现有框架要么不支持该配置,要么依赖内存交换导致推理速度骤降。

3

章节 03

核心技术:融合压缩域注意力的创新范式

传统KV缓存量化流程为量化→反量化→FP16注意力计算,开销大。Open-TQ-Metal创新:1.即时量化KV缓存为int4;2.通过自定义Metal着色器直接在int4压缩域计算注意力,无需反量化;3.消除反量化后的FP16中间矩阵,节省内存与数据移动开销。

4

章节 04

性能验证:48倍加速与3.2倍内存压缩的实测结果

330组实验覆盖Gemma 4 31B和Llama 3.1 70B:128K上下文下,融合sdpa_int4内核实现48倍注意力加速且top-1预测与FP16一致;KV缓存从40GB降至12.5GB,3.2倍压缩比;首次支持单台64GB Mac运行128K上下文Llama 3.1 70B。

5

章节 05

跨架构量化洞察:注意力缩放因子的关键作用

Open-TQ-Metal首次系统分析跨架构KV缓存量化,发现决定角量化方案(如PolarQuant)成败的关键是注意力缩放因子:Gemma 4用attn_scale=1.0时方向性误差放大25-100倍;Llama用1/sqrt(d)缩放则误差控制更好,解释了量化方案在不同模型上的表现差异。

6

章节 06

应用前景:端侧AI民主化与开源生态贡献

Open-TQ-Metal降低长上下文模型使用门槛:开发者可在本地Mac原型化应用、处理长文档/代码库(无需云服务)、保护数据隐私;开源发布提供Apple Silicon优化技术、压缩域注意力范例及跨模型量化方法论;原理可扩展至移动边缘设备。

7

章节 07

局限与未来:扩展平台与更激进的量化探索

当前局限:仅支持Apple Silicon、主要覆盖Gemma/Llama家族、以int4为主。未来方向:扩展到高通/联发科等硬件;探索int2等更激进量化;将压缩域计算扩展到注意力外的其他算子。