# Mobile-Agent：构建Android GUI自动化代理的研究框架

> 一个用于研究和构建Android图形界面自动化代理的开源工作空间，支持多模态模型、ADB设备控制、任务追踪和基准测试集成。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-26T10:40:10.000Z
- 最近活动: 2026-05-26T10:56:13.159Z
- 热度: 114.7
- 关键词: GUI代理, Android自动化, 多模态模型, 移动代理, ADB, 计算机视觉, AI代理, 自动化测试
- 页面链接: https://www.zingnex.cn/forum/thread/mobile-agent-android-gui
- Canonical: https://www.zingnex.cn/forum/thread/mobile-agent-android-gui
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：M4rque2
- 来源平台：github
- 原始标题：Mobile-Agent", "source_title": "Mobile-Agent
- 原始链接：https://github.com/M4rque2/Mobile-Agent
- 来源发布时间/更新时间：2026-05-26T10:40:10Z

## 原作者与来源\n\n- **原作者/维护者：** M4rque2\n- **来源平台：** GitHub\n- **原始标题：** Mobile-Agent\n- **原始链接：** <https://github.com/M4rque2/Mobile-Agent>\n- **发布时间：** 2026年5月26日\n\n## 项目背景与动机\n\n随着Claude Code、Codex、Gemini CLI等编程代理工具的兴起，AI代理在代码编辑、文件操作和命令执行方面展现出了强大能力。然而，这些工具主要优化的是基于代码和API的工作流程，而非图形用户界面（GUI）的操作。\n\nGUI代理是一种全新的AI系统设计理念：它不依赖于代码或API，而是通过观察屏幕、理解视觉状态、选择UI动作、执行操作、再次观察的循环来完成任务。这种交互方式更接近人类的实际操作习惯——当人类使用智能手机时，我们依赖的是视觉反馈和触摸操作，而非底层代码。\n\nMobile-Agent项目正是基于这一理念诞生的。它旨在构建一个专门面向Android移动设备的GUI代理研究框架，探索如何让AI系统像人类一样通过图形界面完成复杂任务。\n\n## 为什么需要移动GUI代理\n\n尽管桌面和浏览器自动化已经相对成熟，智能手机GUI代理仍然是一个研究不足的领域。这并非因为需求不足——恰恰相反，移动设备承载了大量重复性的GUI工作流程：\n\n- 定期检查和表单填写\n- 应用内的视觉检查和操作\n- 重复性的移动工作流\n- 需要人工干预但耗时费力的简单任务\n\n移动设备的特殊性使得GUI代理更具挑战性：小屏幕尺寸、触摸手势、应用切换、移动键盘、权限管理、动态布局以及深度状态化的应用环境。这些因素共同构成了一个复杂的研究问题空间。\n\n## 当前行业格局\n\nMobile-Agent项目对当前GUI代理领域的产业格局进行了深入分析：\n\n### 美国顶级实验室\n\nOpenAI、Anthropic和Google都在积极开发计算机使用（Computer Use）能力，主要聚焦于浏览器和桌面环境。OpenAI提供官方的computer工具API，Anthropic的Claude具备计算机使用工具，Google的Gemini也支持浏览器控制代理。\n\n### 中国团队的活跃贡献\n\n值得注意的是，在移动和通用GUI代理领域，中国团队表现出特别活跃的研究态势：\n\n- **阿里巴巴/通义千问**：GUI-Owl和Mobile-Agent-v3项目针对桌面和移动环境的GUI自动化\n- **字节跳动**：UI-TARS开源多模态GUI代理系列\n- **智谱AI**：AutoGLM专注于浏览器和Android GUI场景\n- **OpenCUA**：提供计算机使用代理的开源基础\n\n这种格局表明，智能手机GUI代理的研究正处于一个关键的发展节点，而Mobile-Agent项目为这一领域贡献了一个实用的研究和实验平台。\n\n## 核心设计理念\n\nMobile-Agent项目遵循三个核心设计原则：\n\n### 可测量（Measurable）\n\n相同的任务应该可以重复运行并比较结果。项目提供了完整的任务追踪机制，记录每一步的截图、模型输出、执行动作和观察结果，使得实验结果可以被验证和复现。\n\n### 可调试（Debuggable）\n\n代理循环中的每一步都留下足够的证据供人类理解失败原因。每次运行都会生成结构化的追踪数据，包括原始截图、标注截图、LLM调用记录和运行日志。\n\n### 模块化（Modular）\n\n模型、提示词、规划器、感知策略和执行器都应该可以替换，而无需重写整个系统。这种设计使得研究者可以轻松测试不同的配置组合。\n\n## 系统架构与工作流程\n\nMobile-Agent采用经典的"观察-推理-行动"代理循环架构：\n\n### 设备状态预检\n\n每次任务开始前，系统会执行预检流程：唤醒设备、解锁屏幕、返回主屏幕，确保从一个已知的初始状态开始。\n\n### 截图捕获\n\n通过ADB（Android Debug Bridge）从设备捕获屏幕截图，这是代理感知环境的主要方式。\n\n### 多模态消息构建\n\n将用户指令、历史步骤记录和当前截图组合成多模态消息，发送给支持视觉的LLM端点。\n\n### 结构化响应解析\n\n模型返回结构化的动作决策，包括导航（navigate）、提取（extract）或退出（quit）三种基本操作类型。\n\n### 动作执行与追踪\n\n系统将模型决策转换为具体的UI操作（点击、滑动、输入文本、打开应用、等待、系统按键等），执行后保存所有中间产物供后续分析。\n\n## 核心模块介绍\n\nMobile-Agent的代码库包含以下核心模块：\n\n### run_agent.py\n\n运行入口点，负责解析参数、创建任务日志目录、启用双重日志记录（标准输出+文件）、创建模型客户端并启动代理循环。\n\n### agent.py\n\n消息构建和主代理循环编排模块，协调各个子系统的交互。\n\n### agent_io.py\n\nADB动作执行、状态预检辅助函数、动作执行和响应解析的核心模块。\n\n### llm_client.py\n\nOpenAI兼容的多模态客户端和LLM调用记录功能，支持接入各种视觉语言模型。\n\n### logs.py\n\n每次运行的任务目录创建和分流式日志设置，确保实验可追溯。\n\n### app_name_to_package.py\n\n应用别名到包名的映射工具，支持通过自然语言名称打开应用。\n\n## 任务追踪与实验管理\n\nMobile-Agent为每次任务运行创建结构化的追踪目录：\n\n```\n<任务运行根目录>/\n  run_YYYY-mm-dd HH-MM-SS.log    # 运行日志\n  screenshot/                    # 原始截图\n  screenshot_anno/               # 标注截图\n  llm-tracer/                    # LLM调用记录\n```\n\n这种结构化的追踪机制使得研究者可以：\n- 重放完整的代理执行过程\n- 分析失败案例的根本原因\n- 对比不同配置下的表现差异\n- 生成用于论文或报告的可视化材料\n\n## 外部参考与学习资源\n\n项目维护了一个references/目录，收集第三方实现供本地研究学习：\n\n### 代理框架参考\n\n包括移动和GUI代理实现，用于研究动作模式、提示词设计、设备控制、追踪机制和基准测试集成。\n\n### 编程框架参考\n\n包括Claude Code、DeepSeek-TUI等编程代理框架，用于学习规划循环、工具使用约定、恢复行为和执行框架模式，这些经验可能迁移到GUI代理系统。\n\n这些参考资料仅用于分析和设计灵感，项目鼓励将想法提取到自有架构中，而非直接复制代码。\n\n## 使用方式\n\n### 基础运行\n\n```bash\npython run_agent.py --model-config model_config.json --instruction \"你的任务指令\"\n```\n\n### 配置模型端点\n\n复制model_config.json.example为model_config.json，配置以下参数：\n- endpoint_url：模型API端点\n- api_key：API密钥\n- model_name：模型名称\n- adb_path：ADB路径（可选）\n\n### 任务包装脚本\n\ntasks/目录下的任务通常通过包装脚本运行，传递--trace-dir参数使日志和追踪保存在任务目录下。\n\n### 实用工具脚本\n\n- extract_image_json_qwen.py：发送图片到Qwen3.5多模态端点并保存返回的JSON\n- --from-adb标志：从ADB设备捕获新截图并处理\n\n## 当前局限与未来方向\n\nMobile-Agent项目明确声明了当前版本的非目标：\n\n- 不是生产级设备农场\n- 不是Appium或UIAutomator的通用替代品\n- 不是无代码自动化产品\n- 不是基准排行榜本身\n- 不是用于敏感个人设备操作的完全自主系统\n\n项目的近期优先事项是构建一个干净、可检查的研究工作空间。未来可能的发展方向包括更广泛的移动环境支持、更丰富的UI理解能力、人在回路校正机制以及更安全的执行策略。\n\n## 贡献指南\n\n项目欢迎有助于澄清代理循环、改进动作模式、添加可复现的Android任务以及使实验追踪更易于检查的贡献。在添加大型功能之前，建议先提交设计说明或issue，解释：\n\n- 该变更解决的移动代理问题\n- 对Android设备、模型或基准的假设\n- 如何测试或复现该行为\n- 失败时应有的追踪输出\n\n## 结语\n\nMobile-Agent为移动GUI代理研究提供了一个实用、模块化的实验平台。在全球AI实验室竞相开发计算机使用能力的背景下，该项目聚焦于相对研究不足但需求巨大的智能手机领域。通过提供可测量、可调试、模块化的研究基础设施，Mobile-Agent有望帮助研究者更好地理解GUI代理的能力边界，推动这一领域的进一步发展。\n