Mobile-Agent：构建Android GUI自动化代理的研究框架

章节 01

导读 / 主楼：Mobile-Agent：构建Android GUI自动化代理的研究框架

一个用于研究和构建Android图形界面自动化代理的开源工作空间，支持多模态模型、ADB设备控制、任务追踪和基准测试集成。

章节 02

原作者与来源

原作者/维护者：M4rque2
来源平台：github
原始标题：Mobile-Agent", "source_title": "Mobile-Agent
原始链接：https://github.com/M4rque2/Mobile-Agent
来源发布时间/更新时间：2026-05-26T10:40:10Z

章节 03

补充观点 1

原作者与来源

原作者/维护者：M4rque2
来源平台：github
原始标题：Mobile-Agent", "source_title": "Mobile-Agent
原始链接：https://github.com/M4rque2/Mobile-Agent
来源发布时间/更新时间：2026-05-26T10:40:10Z 原作者与来源\n\n- 原作者/维护者： M4rque2\n- 来源平台： GitHub\n- 原始标题： Mobile-Agent\n- 原始链接： https://github.com/M4rque2/Mobile-Agent\n- 发布时间： 2026年5月26日\n\n项目背景与动机\n\n随着Claude Code、Codex、Gemini CLI等编程代理工具的兴起，AI代理在代码编辑、文件操作和命令执行方面展现出了强大能力。然而，这些工具主要优化的是基于代码和API的工作流程，而非图形用户界面（GUI）的操作。\n\nGUI代理是一种全新的AI系统设计理念：它不依赖于代码或API，而是通过观察屏幕、理解视觉状态、选择UI动作、执行操作、再次观察的循环来完成任务。这种交互方式更接近人类的实际操作习惯——当人类使用智能手机时，我们依赖的是视觉反馈和触摸操作，而非底层代码。\n\nMobile-Agent项目正是基于这一理念诞生的。它旨在构建一个专门面向Android移动设备的GUI代理研究框架，探索如何让AI系统像人类一样通过图形界面完成复杂任务。\n\n为什么需要移动GUI代理\n\n尽管桌面和浏览器自动化已经相对成熟，智能手机GUI代理仍然是一个研究不足的领域。这并非因为需求不足——恰恰相反，移动设备承载了大量重复性的GUI工作流程：\n\n- 定期检查和表单填写\n- 应用内的视觉检查和操作\n- 重复性的移动工作流\n- 需要人工干预但耗时费力的简单任务\n\n移动设备的特殊性使得GUI代理更具挑战性：小屏幕尺寸、触摸手势、应用切换、移动键盘、权限管理、动态布局以及深度状态化的应用环境。这些因素共同构成了一个复杂的研究问题空间。\n\n当前行业格局\n\nMobile-Agent项目对当前GUI代理领域的产业格局进行了深入分析：\n\n美国顶级实验室\n\nOpenAI、Anthropic和Google都在积极开发计算机使用（Computer Use）能力，主要聚焦于浏览器和桌面环境。OpenAI提供官方的computer工具API，Anthropic的Claude具备计算机使用工具，Google的Gemini也支持浏览器控制代理。\n\n中国团队的活跃贡献\n\n值得注意的是，在移动和通用GUI代理领域，中国团队表现出特别活跃的研究态势：\n\n- 阿里巴巴/通义千问：GUI-Owl和Mobile-Agent-v3项目针对桌面和移动环境的GUI自动化\n- 字节跳动：UI-TARS开源多模态GUI代理系列\n- 智谱AI：AutoGLM专注于浏览器和Android GUI场景\n- OpenCUA：提供计算机使用代理的开源基础\n\n这种格局表明，智能手机GUI代理的研究正处于一个关键的发展节点，而Mobile-Agent项目为这一领域贡献了一个实用的研究和实验平台。\n\n核心设计理念\n\nMobile-Agent项目遵循三个核心设计原则：\n\n可测量（Measurable）\n\n相同的任务应该可以重复运行并比较结果。项目提供了完整的任务追踪机制，记录每一步的截图、模型输出、执行动作和观察结果，使得实验结果可以被验证和复现。\n\n可调试（Debuggable）\n\n代理循环中的每一步都留下足够的证据供人类理解失败原因。每次运行都会生成结构化的追踪数据，包括原始截图、标注截图、LLM调用记录和运行日志。\n\n模块化（Modular）\n\n模型、提示词、规划器、感知策略和执行器都应该可以替换，而无需重写整个系统。这种设计使得研究者可以轻松测试不同的配置组合。\n\n系统架构与工作流程\n\nMobile-Agent采用经典的"观察-推理-行动"代理循环架构：\n\n设备状态预检\n\n每次任务开始前，系统会执行预检流程：唤醒设备、解锁屏幕、返回主屏幕，确保从一个已知的初始状态开始。\n\n截图捕获\n\n通过ADB（Android Debug Bridge）从设备捕获屏幕截图，这是代理感知环境的主要方式。\n\n多模态消息构建\n\n将用户指令、历史步骤记录和当前截图组合成多模态消息，发送给支持视觉的LLM端点。\n\n结构化响应解析\n\n模型返回结构化的动作决策，包括导航（navigate）、提取（extract）或退出（quit）三种基本操作类型。\n\n动作执行与追踪\n\n系统将模型决策转换为具体的UI操作（点击、滑动、输入文本、打开应用、等待、系统按键等），执行后保存所有中间产物供后续分析。\n\n核心模块介绍\n\nMobile-Agent的代码库包含以下核心模块：\n\nrun_agent.py\n\n运行入口点，负责解析参数、创建任务日志目录、启用双重日志记录（标准输出+文件）、创建模型客户端并启动代理循环。\n\nagent.py\n\n消息构建和主代理循环编排模块，协调各个子系统的交互。\n\nagent_io.py\n\nADB动作执行、状态预检辅助函数、动作执行和响应解析的核心模块。\n\nllm_client.py\n\nOpenAI兼容的多模态客户端和LLM调用记录功能，支持接入各种视觉语言模型。\n\nlogs.py\n\n每次运行的任务目录创建和分流式日志设置，确保实验可追溯。\n\napp_name_to_package.py\n\n应用别名到包名的映射工具，支持通过自然语言名称打开应用。\n\n任务追踪与实验管理\n\nMobile-Agent为每次任务运行创建结构化的追踪目录：\n\n\n<任务运行根目录>/\n run_YYYY-mm-dd HH-MM-SS.log 运行日志\n screenshot/ 原始截图\n screenshot_anno/ 标注截图\n llm-tracer/ LLM调用记录\n\n\n这种结构化的追踪机制使得研究者可以：\n- 重放完整的代理执行过程\n- 分析失败案例的根本原因\n- 对比不同配置下的表现差异\n- 生成用于论文或报告的可视化材料\n\n外部参考与学习资源\n\n项目维护了一个references/目录，收集第三方实现供本地研究学习：\n\n代理框架参考\n\n包括移动和GUI代理实现，用于研究动作模式、提示词设计、设备控制、追踪机制和基准测试集成。\n\n编程框架参考\n\n包括Claude Code、DeepSeek-TUI等编程代理框架，用于学习规划循环、工具使用约定、恢复行为和执行框架模式，这些经验可能迁移到GUI代理系统。\n\n这些参考资料仅用于分析和设计灵感，项目鼓励将想法提取到自有架构中，而非直接复制代码。\n\n使用方式\n\n基础运行\n\nbash\npython run_agent.py --model-config model_config.json --instruction \"你的任务指令\"\n\n\n配置模型端点\n\n复制model_config.json.example为model_config.json，配置以下参数：\n- endpoint_url：模型API端点\n- api_key：API密钥\n- model_name：模型名称\n- adb_path：ADB路径（可选）\n\n任务包装脚本\n\ntasks/目录下的任务通常通过包装脚本运行，传递--trace-dir参数使日志和追踪保存在任务目录下。\n\n实用工具脚本\n\n- extract_image_json_qwen.py：发送图片到Qwen3.5多模态端点并保存返回的JSON\n- --from-adb标志：从ADB设备捕获新截图并处理\n\n当前局限与未来方向\n\nMobile-Agent项目明确声明了当前版本的非目标：\n\n- 不是生产级设备农场\n- 不是Appium或UIAutomator的通用替代品\n- 不是无代码自动化产品\n- 不是基准排行榜本身\n- 不是用于敏感个人设备操作的完全自主系统\n\n项目的近期优先事项是构建一个干净、可检查的研究工作空间。未来可能的发展方向包括更广泛的移动环境支持、更丰富的UI理解能力、人在回路校正机制以及更安全的执行策略。\n\n贡献指南\n\n项目欢迎有助于澄清代理循环、改进动作模式、添加可复现的Android任务以及使实验追踪更易于检查的贡献。在添加大型功能之前，建议先提交设计说明或issue，解释：\n\n- 该变更解决的移动代理问题\n- 对Android设备、模型或基准的假设\n- 如何测试或复现该行为\n- 失败时应有的追踪输出\n\n结语\n\nMobile-Agent为移动GUI代理研究提供了一个实用、模块化的实验平台。在全球AI实验室竞相开发计算机使用能力的背景下，该项目聚焦于相对研究不足但需求巨大的智能手机领域。通过提供可测量、可调试、模块化的研究基础设施，Mobile-Agent有望帮助研究者更好地理解GUI代理的能力边界，推动这一领域的进一步发展。\n

Mobile-Agent：构建Android GUI自动化代理的研究框架

导读 / 主楼：Mobile-Agent：构建Android GUI自动化代理的研究框架

原作者与来源

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎