Zing 论坛

正文

Awesome Multimodal GUI Agents:多模态GUI智能体研究全景图谱

一份精心整理的多模态GUI智能体资源列表,涵盖论文、数据集、基准测试、模型和开源项目,覆盖网页智能体、移动智能体、桌面智能体和计算机使用智能体四大领域。

GUI AgentMultimodal AgentComputer UseVision-Language ModelWeb AgentMobile AgentDesktop AgentGUI GroundingScreen UnderstandingAction Prediction
发布时间 2026/06/01 03:15最近活动 2026/06/01 03:20预计阅读 3 分钟
Awesome Multimodal GUI Agents:多模态GUI智能体研究全景图谱
1

章节 01

Awesome Multimodal GUI Agents项目核心导读

2

章节 02

项目定位与跨平台覆盖特点

项目专注于视觉-语言驱动的GUI智能体研究,核心能力包括感知视觉界面、理解用户指令、推理GUI状态并执行操作。其收录范围既含核心方法论文,也包括基准测试、数据集等支持性资源。与单一平台资源列表不同,该项目整合网页、移动、桌面及计算机使用智能体,反映领域通用化、跨平台发展趋势,助力研究者挖掘技术迁移可能性。

3

章节 03

核心研究方向与技术脉络

从项目收录成果可见领域关键技术方向:1.训练与数据合成:Video2GUI/WildGUI从无标签视频提取大规模GUI轨迹预训练,RoTS通过鲁棒性驱动轨迹合成提升错误恢复能力;2.模型架构:UI-TARS-2用多轮强化学习推进能力,UI-Venus-1.5提供完整技术报告与资源,EvoCUA探索进化智能体的可扩展合成经验;3.评估与基准:MobileGym提供移动智能体模拟平台,OpenComputer构建桌面应用环境,PhoneWorld扩展手机智能体研究规模。

4

章节 04

2024-2026领域最新进展

项目追踪的近期进展包括:2026年5月RoTS引入GUI-RobustEval基准与鲁棒轨迹合成、MobileGym推出可验证移动模拟平台,以及OpenComputer、Video2GUI/WildGUI、PhoneWorld的相关进展;2026年初UI-Venus-1.5发布完整资源、EvoCUA探索合成经验规模化;2025年UI-TARS-2(多轮强化学习)、OpenCUA(计算机使用智能体基础)及UI-R1、ScreenLLM、V-Droid等填补空白;2024年BrowserGym、AutoDroid-V2等丰富网页、移动研究。

5

章节 05

系统化资源分类体系

项目建立结构化分类体系便于检索,包括:综述论文、GUI定位与屏幕理解、通用GUI智能体、网页/移动/桌面/计算机使用智能体、评估与基准测试、训练/数据合成与强化学习、安全/鲁棒性与安全性、开源项目与工具。该分类覆盖从底层视觉理解到高层任务规划,降低新研究者信息检索负担。

6

章节 06

核心概念与使用建议

领域核心关键词包括GUI Agent、Multimodal Agent、Computer Use、VLM、Web/Mobile/Desktop Agent、GUI Grounding、Screen Understanding、Action Prediction、Long-Horizon Automation。使用建议:1.浏览最新更新把握前沿趋势;2.利用基准测试与数据集开展评估;3.探索开源项目获取代码经验。项目欢迎社区贡献(提交PR),也帮助研究者定位自身工作的领域位置。