正文

Awesome Multimodal GUI Agents：多模态GUI智能体研究全景图谱

一份精心整理的多模态GUI智能体资源列表，涵盖论文、数据集、基准测试、模型和开源项目，覆盖网页智能体、移动智能体、桌面智能体和计算机使用智能体四大领域。

GUI AgentMultimodal AgentComputer UseVision-Language ModelWeb AgentMobile AgentDesktop AgentGUI GroundingScreen UnderstandingAction Prediction

发布时间 2026/06/01 03:15最近活动 2026/06/01 03:20预计阅读 3 分钟

Awesome Multimodal GUI Agents：多模态GUI智能体研究全景图谱

章节 01

Awesome Multimodal GUI Agents项目核心导读

本文介绍的Awesome Multimodal GUI Agents项目是由DeLunnLi维护的GitHub资源列表（原始链接：https://github.com/DeLunnLi/Awesome-Multimodal-GUI-Agents，更新时间2026-05-31），系统性整理了多模态GUI智能体领域的论文、数据集、基准测试、模型及开源项目，覆盖网页、移动、桌面和计算机使用四大智能体领域。该项目以跨平台整合为特色，帮助研究者发现不同平台技术共通性，是领域入门与前沿追踪的重要资源。

章节 02

项目定位与跨平台覆盖特点

项目专注于视觉-语言驱动的GUI智能体研究，核心能力包括感知视觉界面、理解用户指令、推理GUI状态并执行操作。其收录范围既含核心方法论文，也包括基准测试、数据集等支持性资源。与单一平台资源列表不同，该项目整合网页、移动、桌面及计算机使用智能体，反映领域通用化、跨平台发展趋势，助力研究者挖掘技术迁移可能性。

章节 03

核心研究方向与技术脉络

从项目收录成果可见领域关键技术方向：1.训练与数据合成：Video2GUI/WildGUI从无标签视频提取大规模GUI轨迹预训练，RoTS通过鲁棒性驱动轨迹合成提升错误恢复能力；2.模型架构：UI-TARS-2用多轮强化学习推进能力，UI-Venus-1.5提供完整技术报告与资源，EvoCUA探索进化智能体的可扩展合成经验；3.评估与基准：MobileGym提供移动智能体模拟平台，OpenComputer构建桌面应用环境，PhoneWorld扩展手机智能体研究规模。

章节 04

2024-2026领域最新进展

项目追踪的近期进展包括：2026年5月RoTS引入GUI-RobustEval基准与鲁棒轨迹合成、MobileGym推出可验证移动模拟平台，以及OpenComputer、Video2GUI/WildGUI、PhoneWorld的相关进展；2026年初UI-Venus-1.5发布完整资源、EvoCUA探索合成经验规模化；2025年UI-TARS-2（多轮强化学习）、OpenCUA（计算机使用智能体基础）及UI-R1、ScreenLLM、V-Droid等填补空白；2024年BrowserGym、AutoDroid-V2等丰富网页、移动研究。

章节 05

系统化资源分类体系

项目建立结构化分类体系便于检索，包括：综述论文、GUI定位与屏幕理解、通用GUI智能体、网页/移动/桌面/计算机使用智能体、评估与基准测试、训练/数据合成与强化学习、安全/鲁棒性与安全性、开源项目与工具。该分类覆盖从底层视觉理解到高层任务规划，降低新研究者信息检索负担。

章节 06

核心概念与使用建议

领域核心关键词包括GUI Agent、Multimodal Agent、Computer Use、VLM、Web/Mobile/Desktop Agent、GUI Grounding、Screen Understanding、Action Prediction、Long-Horizon Automation。使用建议：1.浏览最新更新把握前沿趋势；2.利用基准测试与数据集开展评估；3.探索开源项目获取代码经验。项目欢迎社区贡献（提交PR），也帮助研究者定位自身工作的领域位置。

Awesome Multimodal GUI Agents：多模态GUI智能体研究全景图谱

Awesome Multimodal GUI Agents项目核心导读

项目定位与跨平台覆盖特点

核心研究方向与技术脉络

2024-2026领域最新进展

系统化资源分类体系

核心概念与使用建议

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统