Zing 论坛

正文

Mobile-Agent:构建Android GUI自动化代理的研究框架

一个用于研究和构建Android图形界面自动化代理的开源工作空间,支持多模态模型、ADB设备控制、任务追踪和基准测试集成。

GUI代理Android自动化多模态模型移动代理ADB计算机视觉AI代理自动化测试
发布时间 2026/05/26 18:40最近活动 2026/05/26 18:56预计阅读 7 分钟
Mobile-Agent:构建Android GUI自动化代理的研究框架
1

章节 01

导读 / 主楼:Mobile-Agent:构建Android GUI自动化代理的研究框架

一个用于研究和构建Android图形界面自动化代理的开源工作空间,支持多模态模型、ADB设备控制、任务追踪和基准测试集成。

2

章节 02

原作者与来源

  • 原作者/维护者:M4rque2
  • 来源平台:github
  • 原始标题:Mobile-Agent", "source_title": "Mobile-Agent
  • 原始链接:https://github.com/M4rque2/Mobile-Agent
  • 来源发布时间/更新时间:2026-05-26T10:40:10Z
3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:M4rque2
  • 来源平台:github
  • 原始标题:Mobile-Agent", "source_title": "Mobile-Agent
  • 原始链接:https://github.com/M4rque2/Mobile-Agent
  • 来源发布时间/更新时间:2026-05-26T10:40:10Z 原作者与来源\n\n- 原作者/维护者: M4rque2\n- 来源平台: GitHub\n- 原始标题: Mobile-Agent\n- 原始链接: https://github.com/M4rque2/Mobile-Agent\n- 发布时间: 2026年5月26日\n\n项目背景与动机\n\n随着Claude Code、Codex、Gemini CLI等编程代理工具的兴起,AI代理在代码编辑、文件操作和命令执行方面展现出了强大能力。然而,这些工具主要优化的是基于代码和API的工作流程,而非图形用户界面(GUI)的操作。\n\nGUI代理是一种全新的AI系统设计理念:它不依赖于代码或API,而是通过观察屏幕、理解视觉状态、选择UI动作、执行操作、再次观察的循环来完成任务。这种交互方式更接近人类的实际操作习惯——当人类使用智能手机时,我们依赖的是视觉反馈和触摸操作,而非底层代码。\n\nMobile-Agent项目正是基于这一理念诞生的。它旨在构建一个专门面向Android移动设备的GUI代理研究框架,探索如何让AI系统像人类一样通过图形界面完成复杂任务。\n\n为什么需要移动GUI代理\n\n尽管桌面和浏览器自动化已经相对成熟,智能手机GUI代理仍然是一个研究不足的领域。这并非因为需求不足——恰恰相反,移动设备承载了大量重复性的GUI工作流程:\n\n- 定期检查和表单填写\n- 应用内的视觉检查和操作\n- 重复性的移动工作流\n- 需要人工干预但耗时费力的简单任务\n\n移动设备的特殊性使得GUI代理更具挑战性:小屏幕尺寸、触摸手势、应用切换、移动键盘、权限管理、动态布局以及深度状态化的应用环境。这些因素共同构成了一个复杂的研究问题空间。\n\n当前行业格局\n\nMobile-Agent项目对当前GUI代理领域的产业格局进行了深入分析:\n\n美国顶级实验室\n\nOpenAI、Anthropic和Google都在积极开发计算机使用(Computer Use)能力,主要聚焦于浏览器和桌面环境。OpenAI提供官方的computer工具API,Anthropic的Claude具备计算机使用工具,Google的Gemini也支持浏览器控制代理。\n\n中国团队的活跃贡献\n\n值得注意的是,在移动和通用GUI代理领域,中国团队表现出特别活跃的研究态势:\n\n- 阿里巴巴/通义千问:GUI-Owl和Mobile-Agent-v3项目针对桌面和移动环境的GUI自动化\n- 字节跳动:UI-TARS开源多模态GUI代理系列\n- 智谱AI:AutoGLM专注于浏览器和Android GUI场景\n- OpenCUA:提供计算机使用代理的开源基础\n\n这种格局表明,智能手机GUI代理的研究正处于一个关键的发展节点,而Mobile-Agent项目为这一领域贡献了一个实用的研究和实验平台。\n\n核心设计理念\n\nMobile-Agent项目遵循三个核心设计原则:\n\n可测量(Measurable)\n\n相同的任务应该可以重复运行并比较结果。项目提供了完整的任务追踪机制,记录每一步的截图、模型输出、执行动作和观察结果,使得实验结果可以被验证和复现。\n\n可调试(Debuggable)\n\n代理循环中的每一步都留下足够的证据供人类理解失败原因。每次运行都会生成结构化的追踪数据,包括原始截图、标注截图、LLM调用记录和运行日志。\n\n模块化(Modular)\n\n模型、提示词、规划器、感知策略和执行器都应该可以替换,而无需重写整个系统。这种设计使得研究者可以轻松测试不同的配置组合。\n\n系统架构与工作流程\n\nMobile-Agent采用经典的"观察-推理-行动"代理循环架构:\n\n设备状态预检\n\n每次任务开始前,系统会执行预检流程:唤醒设备、解锁屏幕、返回主屏幕,确保从一个已知的初始状态开始。\n\n截图捕获\n\n通过ADB(Android Debug Bridge)从设备捕获屏幕截图,这是代理感知环境的主要方式。\n\n多模态消息构建\n\n将用户指令、历史步骤记录和当前截图组合成多模态消息,发送给支持视觉的LLM端点。\n\n结构化响应解析\n\n模型返回结构化的动作决策,包括导航(navigate)、提取(extract)或退出(quit)三种基本操作类型。\n\n动作执行与追踪\n\n系统将模型决策转换为具体的UI操作(点击、滑动、输入文本、打开应用、等待、系统按键等),执行后保存所有中间产物供后续分析。\n\n核心模块介绍\n\nMobile-Agent的代码库包含以下核心模块:\n\nrun_agent.py\n\n运行入口点,负责解析参数、创建任务日志目录、启用双重日志记录(标准输出+文件)、创建模型客户端并启动代理循环。\n\nagent.py\n\n消息构建和主代理循环编排模块,协调各个子系统的交互。\n\nagent_io.py\n\nADB动作执行、状态预检辅助函数、动作执行和响应解析的核心模块。\n\nllm_client.py\n\nOpenAI兼容的多模态客户端和LLM调用记录功能,支持接入各种视觉语言模型。\n\nlogs.py\n\n每次运行的任务目录创建和分流式日志设置,确保实验可追溯。\n\napp_name_to_package.py\n\n应用别名到包名的映射工具,支持通过自然语言名称打开应用。\n\n任务追踪与实验管理\n\nMobile-Agent为每次任务运行创建结构化的追踪目录:\n\n\n<任务运行根目录>/\n run_YYYY-mm-dd HH-MM-SS.log 运行日志\n screenshot/ 原始截图\n screenshot_anno/ 标注截图\n llm-tracer/ LLM调用记录\n\n\n这种结构化的追踪机制使得研究者可以:\n- 重放完整的代理执行过程\n- 分析失败案例的根本原因\n- 对比不同配置下的表现差异\n- 生成用于论文或报告的可视化材料\n\n外部参考与学习资源\n\n项目维护了一个references/目录,收集第三方实现供本地研究学习:\n\n代理框架参考\n\n包括移动和GUI代理实现,用于研究动作模式、提示词设计、设备控制、追踪机制和基准测试集成。\n\n编程框架参考\n\n包括Claude Code、DeepSeek-TUI等编程代理框架,用于学习规划循环、工具使用约定、恢复行为和执行框架模式,这些经验可能迁移到GUI代理系统。\n\n这些参考资料仅用于分析和设计灵感,项目鼓励将想法提取到自有架构中,而非直接复制代码。\n\n使用方式\n\n基础运行\n\nbash\npython run_agent.py --model-config model_config.json --instruction \"你的任务指令\"\n\n\n配置模型端点\n\n复制model_config.json.example为model_config.json,配置以下参数:\n- endpoint_url:模型API端点\n- api_key:API密钥\n- model_name:模型名称\n- adb_path:ADB路径(可选)\n\n任务包装脚本\n\ntasks/目录下的任务通常通过包装脚本运行,传递--trace-dir参数使日志和追踪保存在任务目录下。\n\n实用工具脚本\n\n- extract_image_json_qwen.py:发送图片到Qwen3.5多模态端点并保存返回的JSON\n- --from-adb标志:从ADB设备捕获新截图并处理\n\n当前局限与未来方向\n\nMobile-Agent项目明确声明了当前版本的非目标:\n\n- 不是生产级设备农场\n- 不是Appium或UIAutomator的通用替代品\n- 不是无代码自动化产品\n- 不是基准排行榜本身\n- 不是用于敏感个人设备操作的完全自主系统\n\n项目的近期优先事项是构建一个干净、可检查的研究工作空间。未来可能的发展方向包括更广泛的移动环境支持、更丰富的UI理解能力、人在回路校正机制以及更安全的执行策略。\n\n贡献指南\n\n项目欢迎有助于澄清代理循环、改进动作模式、添加可复现的Android任务以及使实验追踪更易于检查的贡献。在添加大型功能之前,建议先提交设计说明或issue,解释:\n\n- 该变更解决的移动代理问题\n- 对Android设备、模型或基准的假设\n- 如何测试或复现该行为\n- 失败时应有的追踪输出\n\n结语\n\nMobile-Agent为移动GUI代理研究提供了一个实用、模块化的实验平台。在全球AI实验室竞相开发计算机使用能力的背景下,该项目聚焦于相对研究不足但需求巨大的智能手机领域。通过提供可测量、可调试、模块化的研究基础设施,Mobile-Agent有望帮助研究者更好地理解GUI代理的能力边界,推动这一领域的进一步发展。\n