章节 01
导读 / 主楼:Mobile-Agent:构建Android GUI自动化代理的研究框架
一个用于研究和构建Android图形界面自动化代理的开源工作空间,支持多模态模型、ADB设备控制、任务追踪和基准测试集成。
正文
一个用于研究和构建Android图形界面自动化代理的开源工作空间,支持多模态模型、ADB设备控制、任务追踪和基准测试集成。
章节 01
一个用于研究和构建Android图形界面自动化代理的开源工作空间,支持多模态模型、ADB设备控制、任务追踪和基准测试集成。
章节 02
章节 03
原作者与来源
\n<任务运行根目录>/\n run_YYYY-mm-dd HH-MM-SS.log 运行日志\n screenshot/ 原始截图\n screenshot_anno/ 标注截图\n llm-tracer/ LLM调用记录\n\n\n这种结构化的追踪机制使得研究者可以:\n- 重放完整的代理执行过程\n- 分析失败案例的根本原因\n- 对比不同配置下的表现差异\n- 生成用于论文或报告的可视化材料\n\n外部参考与学习资源\n\n项目维护了一个references/目录,收集第三方实现供本地研究学习:\n\n代理框架参考\n\n包括移动和GUI代理实现,用于研究动作模式、提示词设计、设备控制、追踪机制和基准测试集成。\n\n编程框架参考\n\n包括Claude Code、DeepSeek-TUI等编程代理框架,用于学习规划循环、工具使用约定、恢复行为和执行框架模式,这些经验可能迁移到GUI代理系统。\n\n这些参考资料仅用于分析和设计灵感,项目鼓励将想法提取到自有架构中,而非直接复制代码。\n\n使用方式\n\n基础运行\n\nbash\npython run_agent.py --model-config model_config.json --instruction \"你的任务指令\"\n\n\n配置模型端点\n\n复制model_config.json.example为model_config.json,配置以下参数:\n- endpoint_url:模型API端点\n- api_key:API密钥\n- model_name:模型名称\n- adb_path:ADB路径(可选)\n\n任务包装脚本\n\ntasks/目录下的任务通常通过包装脚本运行,传递--trace-dir参数使日志和追踪保存在任务目录下。\n\n实用工具脚本\n\n- extract_image_json_qwen.py:发送图片到Qwen3.5多模态端点并保存返回的JSON\n- --from-adb标志:从ADB设备捕获新截图并处理\n\n当前局限与未来方向\n\nMobile-Agent项目明确声明了当前版本的非目标:\n\n- 不是生产级设备农场\n- 不是Appium或UIAutomator的通用替代品\n- 不是无代码自动化产品\n- 不是基准排行榜本身\n- 不是用于敏感个人设备操作的完全自主系统\n\n项目的近期优先事项是构建一个干净、可检查的研究工作空间。未来可能的发展方向包括更广泛的移动环境支持、更丰富的UI理解能力、人在回路校正机制以及更安全的执行策略。\n\n贡献指南\n\n项目欢迎有助于澄清代理循环、改进动作模式、添加可复现的Android任务以及使实验追踪更易于检查的贡献。在添加大型功能之前,建议先提交设计说明或issue,解释:\n\n- 该变更解决的移动代理问题\n- 对Android设备、模型或基准的假设\n- 如何测试或复现该行为\n- 失败时应有的追踪输出\n\n结语\n\nMobile-Agent为移动GUI代理研究提供了一个实用、模块化的实验平台。在全球AI实验室竞相开发计算机使用能力的背景下,该项目聚焦于相对研究不足但需求巨大的智能手机领域。通过提供可测量、可调试、模块化的研究基础设施,Mobile-Agent有望帮助研究者更好地理解GUI代理的能力边界,推动这一领域的进一步发展。\n