Zing 论坛

正文

PAGER:弥合几何图形界面精确控制中的语义-执行鸿沟

PAGER是一种拓扑感知的智能体架构,专门解决几何构造类GUI任务中的精确点控制难题。通过依赖结构化规划和像素级执行,PAGER将任务成功率从不到6%提升到超过62%,建立了点精确GUI控制的新标准。

PAGERGUI智能体几何构造点精确控制视觉-语言模型强化学习拓扑感知PAGE基准测试
发布时间 2026/05/15 21:55最近活动 2026/05/18 16:18预计阅读 2 分钟
PAGER:弥合几何图形界面精确控制中的语义-执行鸿沟
1

章节 01

PAGER:弥合几何GUI精确控制的语义-执行鸿沟【导读】

PAGER是一种拓扑感知的智能体架构,专门解决几何构造类GUI任务中的精确点控制难题。通过结构化规划与像素级执行结合,将任务成功率从不到6%提升到超过62%,建立了点精确GUI控制的新标准。本文围绕该研究展开详细分析。

2

章节 02

研究背景与问题定义

大型视觉-语言模型(VLMs)在常规GUI交互中依赖"宽容的区域容忍"范式表现良好,但在几何构造任务中因需像素级精确操作及几何依赖关系而失效。研究定义"精度敏感型GUI任务",其特征包括点级精度要求、几何感知验证、依赖驱动的错误传播鲁棒性。

3

章节 03

PAGE基准测试集介绍

研究团队构建PAGE(Point-precise Agent GEometry)基准测试集,含4906个问题、224000+像素级动作标注,采用过程级监督,覆盖从基础到复杂的几何构造场景,按复杂度分层考察智能体表现。

4

章节 04

PAGER架构核心设计

PAGER架构分为两阶段:1.依赖结构化规划:分析几何构造依赖关系图,确定构造顺序、约束传播及关键节点;2.像素级执行:通过像素锚定监督微调(学习精确坐标动作语法)和精度对齐强化学习(状态条件几何反馈,实时调整偏差)实现精确操作。

5

章节 05

实验结果与关键发现

实验揭示通用多模态模型存在"语义-执行鸿沟"(动作类型准确率88%+但任务成功率<6%);PAGER性能显著提升:任务成功率从<6%到24.6%(4.1倍),单步成功率从<9%到62%+(6.9倍);优势在于依赖感知、误差控制、长程规划能力。

6

章节 06

技术贡献与应用前景

理论贡献:提出从区域容忍到点精确控制的GUI自动化新方向,需显式建模空间精度与拓扑约束、紧密耦合规划与执行、细化监督信号到像素级;应用前景包括CAD、科学可视化、教育软件、图形设计;团队将开源PAGE基准与PAGER模型。

7

章节 07

局限性与未来方向

当前局限:泛化能力待提升、计算效率较低、依赖离线学习;未来方向:扩展到三维几何构造、结合大语言模型推理能力、开发人机协作框架。