# Awesome Multimodal GUI Agents：多模态GUI智能体研究全景图谱

> 一份精心整理的多模态GUI智能体资源列表，涵盖论文、数据集、基准测试、模型和开源项目，覆盖网页智能体、移动智能体、桌面智能体和计算机使用智能体四大领域。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-31T19:15:02.000Z
- 最近活动: 2026-05-31T19:20:14.297Z
- 热度: 149.9
- 关键词: GUI Agent, Multimodal Agent, Computer Use, Vision-Language Model, Web Agent, Mobile Agent, Desktop Agent, GUI Grounding, Screen Understanding, Action Prediction, Long-Horizon Automation, VLM
- 页面链接: https://www.zingnex.cn/forum/thread/awesome-multimodal-gui-agents-gui
- Canonical: https://www.zingnex.cn/forum/thread/awesome-multimodal-gui-agents-gui
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：DeLunnLi
- 来源平台：GitHub
- 原始标题：Awesome-Multimodal-GUI-Agents
- 原始链接：https://github.com/DeLunnLi/Awesome-Multimodal-GUI-Agents
- 来源发布时间/更新时间：2026-05-31T19:15:02Z

## 项目定位与收录范围

Awesome Multimodal GUI Agents项目是一个系统性的学术资源整理工程，专注于视觉-语言驱动的GUI智能体研究领域。这类智能体的核心能力是感知视觉界面、理解用户指令、对GUI状态进行推理，并在网页、移动设备、桌面环境和通用计算机使用场景中执行操作。项目采用明确但宽泛的收录标准，既包括核心的GUI智能体方法论文，也涵盖支持性资源如基准测试、数据集、工具框架和相关基础工作。

项目的独特之处在于其跨平台的覆盖范围。与许多仅关注单一平台（如仅网页或仅移动设备）的资源列表不同，该项目将网页智能体、移动智能体、桌面智能体和计算机使用智能体整合在一个框架下，反映了当前GUI智能体研究向通用化、跨平台方向发展的趋势。这种整合有助于研究者发现不同平台之间的技术共通性和迁移可能性。

## 核心研究方向与技术脉络

从项目收录的最新研究成果可以观察到GUI智能体领域的几个重要技术方向。在训练与数据合成方面，Video2GUI/WildGUI项目展示了如何从无标签视频中提取大规模GUI轨迹用于预训练，而RoTS（Recovering Policy-Induced Errors）则关注通过鲁棒性驱动的轨迹合成来提升错误恢复能力。这些工作反映了领域对高质量训练数据和鲁棒策略学习的重视。

在模型架构方面，UI-TARS-2通过多轮强化学习推进GUI智能体能力，UI-Venus-1.5提供了完整的技术报告、代码库和模型/数据集合，EvoCUA研究了用于进化计算机使用智能体的可扩展合成经验。这些代表性工作展示了从单一模型到持续进化、从静态能力到动态学习的架构演进。

在评估与基准测试方面，MobileGym提供了可验证、高度并行的移动GUI智能体研究模拟平台，OpenComputer提出了验证器引导的桌面应用软件世界，PhoneWorld扩展了手机使用智能体的研究环境。这些基础设施工作对于推动领域标准化和可复现研究至关重要。

## 最新进展追踪（2024-2026）

项目持续跟踪领域的最新进展，近期收录的重要工作包括：2026年5月发布的RoTS引入了GUI-RobustEval基准和鲁棒性驱动的轨迹合成方法；同月的MobileGym提供了可验证的移动GUI智能体模拟平台；OpenComputer和Video2GUI/WildGUI分别在桌面应用环境和视频轨迹提取方面取得进展；PhoneWorld扩展了手机使用智能体的研究规模。

2026年初的重要工作包括UI-Venus-1.5的完整技术报告和模型发布，以及EvoCUA对合成经验规模化的探索。2025年的代表性工作有UI-TARS-2的多轮强化学习、OpenCUA的计算机使用智能体开放基础，以及UI-R1、ScreenLLM和V-Droid等填补早期GUI动作预测和移动部署空白的工作。2024年的BrowserGym、AutoDroid-V2、Ponder & Press、AgentTrek等工作进一步丰富了网页、移动和通用计算机控制研究。

## 资源分类体系

项目建立了系统化的资源分类体系，便于研究者按需检索。主要分类包括：综述论文（Surveys）、GUI定位与屏幕理解（GUI Grounding and Screen Understanding）、通用GUI智能体（General GUI Agents）、网页智能体（Web Agents）、移动智能体（Mobile Agents）、桌面与计算机使用智能体（Desktop and Computer-Use Agents）、评估与基准测试（Evaluation and Benchmarks）、训练/数据合成与强化学习（Training, Data Synthesis, and Reinforcement Learning）、安全/鲁棒性与安全性（Safety, Robustness, and Security），以及开源项目与工具（Open-Source Projects / Tools）。

这种分类不仅反映了技术领域的自然划分，也揭示了GUI智能体研究的多维度特性——从底层的视觉理解到高层的任务规划，从模型训练到安全部署，从学术研究到工程实践。对于新进入该领域的研究者，这种结构化的组织方式大大降低了信息检索的认知负担。

## 领域关键词与技术概念

项目定义了一系列核心关键词，帮助理解领域的技术范畴：GUI Agent（图形界面智能体）、Multimodal Agent（多模态智能体）、Computer Use（计算机使用）、Vision-Language Model（视觉语言模型，VLM）、Web Agent（网页智能体）、Mobile Agent（移动智能体）、Desktop Agent（桌面智能体）、GUI Grounding（GUI定位）、Screen Understanding（屏幕理解）、Action Prediction（动作预测）、Long-Horizon Automation（长程自动化）。

这些关键词涵盖了GUI智能体研究的几个核心维度：感知（屏幕理解、GUI定位）、推理（视觉语言模型）、行动（动作预测、计算机使用）、场景（网页、移动、桌面）和时序（长程自动化）。理解这些概念及其相互关系，是把握领域发展脉络的关键。

## 实践价值与使用建议

对于希望进入GUI智能体领域的研究者，该项目提供了三种主要的使用路径。首先，通过浏览最新更新和代表性方法，可以快速把握领域的前沿动态和技术趋势。其次，通过查阅推荐的基准测试和数据集，可以找到适合自己研究的评估基础设施。第三，通过探索开源项目和工具，可以获取可直接使用的代码实现和工程经验。

项目特别欢迎社区贡献，鼓励研究者对论文进行分类并提交Pull Request。这种开放协作的模式有助于保持资源列表的时效性和全面性，也促进了学术社区的集体知识积累。对于希望发表相关研究的工作者，该项目提供的论文分类和时序视图可以帮助定位自己的工作在领域中的位置，识别潜在的差异化方向。
