正文

PAGER：弥合几何图形界面精确控制中的语义-执行鸿沟

PAGER是一种拓扑感知的智能体架构，专门解决几何构造类GUI任务中的精确点控制难题。通过依赖结构化规划和像素级执行，PAGER将任务成功率从不到6%提升到超过62%，建立了点精确GUI控制的新标准。

PAGERGUI智能体几何构造点精确控制视觉-语言模型强化学习拓扑感知PAGE基准测试

发布时间 2026/05/15 21:55最近活动 2026/05/18 16:18预计阅读 2 分钟

章节 01

PAGER：弥合几何GUI精确控制的语义-执行鸿沟【导读】

PAGER是一种拓扑感知的智能体架构，专门解决几何构造类GUI任务中的精确点控制难题。通过结构化规划与像素级执行结合，将任务成功率从不到6%提升到超过62%，建立了点精确GUI控制的新标准。本文围绕该研究展开详细分析。

章节 02

大型视觉-语言模型（VLMs）在常规GUI交互中依赖"宽容的区域容忍"范式表现良好，但在几何构造任务中因需像素级精确操作及几何依赖关系而失效。研究定义"精度敏感型GUI任务"，其特征包括点级精度要求、几何感知验证、依赖驱动的错误传播鲁棒性。

章节 03

研究团队构建PAGE（Point-precise Agent GEometry）基准测试集，含4906个问题、224000+像素级动作标注，采用过程级监督，覆盖从基础到复杂的几何构造场景，按复杂度分层考察智能体表现。

章节 04

PAGER架构分为两阶段：1.依赖结构化规划：分析几何构造依赖关系图，确定构造顺序、约束传播及关键节点；2.像素级执行：通过像素锚定监督微调（学习精确坐标动作语法）和精度对齐强化学习（状态条件几何反馈，实时调整偏差）实现精确操作。

章节 05

实验揭示通用多模态模型存在"语义-执行鸿沟"（动作类型准确率88%+但任务成功率<6%）；PAGER性能显著提升：任务成功率从<6%到24.6%（4.1倍），单步成功率从<9%到62%+（6.9倍）；优势在于依赖感知、误差控制、长程规划能力。

章节 06

理论贡献：提出从区域容忍到点精确控制的GUI自动化新方向，需显式建模空间精度与拓扑约束、紧密耦合规划与执行、细化监督信号到像素级；应用前景包括CAD、科学可视化、教育软件、图形设计；团队将开源PAGE基准与PAGER模型。

章节 07

当前局限：泛化能力待提升、计算效率较低、依赖离线学习；未来方向：扩展到三维几何构造、结合大语言模型推理能力、开发人机协作框架。