# AQuaUI：通过自适应四叉树实现GUI Agent的视觉Token压缩

> AQuaUI是一种无需重新训练即可在推理阶段压缩GUI Agent视觉Token的方法，通过自适应四叉树识别并合并视觉同质区域，在减少29.52%视觉Token的同时保留99.06%的性能表现。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-19T02:13:29.000Z
- 最近活动: 2026-05-20T07:48:07.556Z
- 热度: 112.4
- 关键词: GUI Agent, 视觉Token压缩, 四叉树, 多模态模型, 推理优化, LMM, 空间冗余, 时序一致性
- 页面链接: https://www.zingnex.cn/forum/thread/aquaui-gui-agenttoken
- Canonical: https://www.zingnex.cn/forum/thread/aquaui-gui-agenttoken
- Markdown 来源: ingested_event

---

# AQuaUI：通过自适应四叉树实现GUI Agent的视觉Token压缩

## 背景与挑战

随着大型多模态模型（LMMs）在GUI Agent领域的广泛应用，模型需要在每个迭代步骤中处理高分辨率的屏幕截图以理解界面状态并执行操作。然而，这种高频率的视觉输入带来了显著的开销——屏幕截图通常包含大量视觉冗余，例如大面积的纯色背景、重复纹理区域，而关键信息如按钮文字、图标往往只占据很小一部分空间。

传统方法面临两难困境：要么保留完整截图导致计算成本高昂，要么通过注意力机制压缩Token却忽略了GUI截图的结构化布局和空间冗余特性。更重要的是，现有方案要么需要额外的训练成本，要么在多步骤交互中难以保持时序一致性。

## AQuaUI核心方法

AQuaUI提出了一种全新的思路：利用四叉树（Quadtree）这种经典的空间数据结构，根据信息密度自适应地划分屏幕区域。四叉树的每个叶子节点代表一个视觉同质区域，系统为每个叶子保留一个代表性的合并Token，而非保留区域内所有原始Token。

### 自适应四叉树构建

算法首先分析屏幕截图的空间信息分布，识别出视觉同质的大面积区域（如空白背景、重复纹理）和包含关键细节的小区域（如文字、图标）。对于信息密度低的区域，四叉树会进行较粗粒度的划分；而对于信息丰富的区域，则保持细粒度表示。这种自适应策略确保了关键视觉信息不会丢失，同时大幅减少了需要处理的Token数量。

### 空间位置保持机制

一个关键设计挑战是如何在Token压缩后保持位置编码的一致性。AQuaUI通过保留被保留Token的原始空间位置信息，确保下游的位置编码模块能够正常工作。这意味着即使Token数量减少，模型仍然能够准确定位界面元素的位置。

### 时序一致性优化

在GUI交互场景中，连续截图往往只有微小变化（如鼠标移动、新窗口弹出）。AQuaUI引入了条件四叉树算法，利用前一个状态的四叉树结构来优化当前状态的划分决策。具体来说，系统会参考之前的四叉树，在静态或轻微变化的区域保持一致的划分策略，仅在发生显著变化的区域重新计算。这种设计不仅提高了计算效率，还确保了跨时间步的视觉表示稳定性。

## 实验结果与性能分析

研究团队在标准的GUI定位和导航基准上评估了AQuaUI，并将其集成到当前最先进的GUI Agent模型中。实验结果令人印象深刻：

在GUI-Owl-1.5-32B-Instruct模型上，AQuaUI实现了高达13.22%的推理加速，同时减少了29.52%的视觉Token使用量。更关键的是，性能仅下降了不到1%（保留99.06%的完整Token性能），这意味着压缩带来的效率提升几乎没有以牺牲准确性为代价。

这一结果验证了核心假设：GUI截图确实存在大量可被安全压缩的空间冗余，而且这种冗余可以在推理阶段被有效利用，无需任何模型重训练。

## 技术意义与应用前景

AQuaUI的意义不仅在于提供了一个具体的优化方案，更在于它开辟了一条新的研究路径——利用输入数据的空间结构特性来优化多模态模型的推理效率。对于部署在资源受限环境中的GUI Agent（如移动设备、边缘计算场景），这种无需重训练的压缩方法具有重要实用价值。

此外，AQuaUI的四叉树框架具有很强的可扩展性。未来研究可以探索更复杂的区域重要性评估策略，或者将类似的思想应用到其他类型的视觉输入（如文档图像、网页截图）中。条件四叉树的思想也可能启发其他需要处理时序视觉数据的任务。

## 结论

AQuaUI通过自适应四叉树实现了GUI Agent视觉Token的高效压缩，在几乎不损失性能的前提下显著提升了推理效率。这项工作为大规模部署GUI Agent系统提供了可行的优化路径，也为视觉Token压缩领域贡献了新的思路。
