# AutoGLM：基于视觉语言模型的Android手机智能代理框架

> AutoGLM是一个开源的Phone Agent框架，能够通过自然语言指令自动操控Android手机。它结合了视觉语言模型、ADB/HDC调试工具和多模态理解能力，支持50+款主流中文应用，为移动端自动化和智能助手开发提供了完整的解决方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T07:43:27.000Z
- 最近活动: 2026-06-16T07:50:57.314Z
- 热度: 163.9
- 关键词: AutoGLM, Phone Agent, 视觉语言模型, Android自动化, AI Agent, 智谱AI, ADB, 移动Agent, 多模态AI, 手机自动化
- 页面链接: https://www.zingnex.cn/forum/thread/autoglm-android
- Canonical: https://www.zingnex.cn/forum/thread/autoglm-android
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: badhope (GitHub用户)
- **来源平台**: GitHub
- **原始标题**: AutoGLM / Open-AutoGLM
- **原始链接**: https://github.com/badhope/AutoGLM
- **发布时间**: 2026年2月创建，持续更新
- **上游来源**: 本项目基于智谱AI (Zhipu AI) 的 Open-AutoGLM 官方开源项目

---

## 背景与动机

随着大语言模型和视觉语言模型的快速发展，AI Agent 正从纯文本交互向多模态、跨平台的方向演进。在移动端场景下，用户每天花费数小时在手机上操作各种App，但许多重复性任务仍然需要手动完成——从订外卖、查快递到管理日程，这些操作占据了大量时间。

传统的自动化工具如 Appium、UI Automator 等虽然能够实现自动化测试，但它们通常需要编写复杂的脚本，对非技术用户门槛较高。而 AutoGLM 的出现，将自然语言理解与视觉感知相结合，让用户只需用一句话描述需求，AI 就能自动理解屏幕内容、规划操作步骤并执行任务。这种"所见即所得"的交互方式，代表了移动Agent技术的重要突破。

---

## 项目概述

AutoGLM（Open-AutoGLM）是一个基于视觉语言模型的手机端智能代理框架，由智谱AI团队开发并开源。该框架的核心能力在于：通过多模态方式理解手机屏幕内容，并通过ADB（Android Debug Bridge）或HDC（HarmonyOS设备连接工具）控制设备，实现自然语言驱动的自动化操作。

项目的架构设计清晰分为两个主要部分：

1. **Agent代码层**：运行在用户电脑上，负责调用视觉模型、解析模型输出的动作指令、通过ADB/HDC控制手机执行操作，并形成感知-决策-执行的闭环。

2. **视觉模型服务层**：提供屏幕理解的AI能力，可以是远程API服务（如智谱BigModel、ModelScope），也可以是用户本地部署的开源模型。

这种分层架构的优势在于灵活性——用户无需昂贵的本地GPU资源，可以直接调用云端模型服务；同时对于需要数据隐私的场景，也可以选择本地部署。

---

## 核心技术机制

### 视觉语言模型驱动的感知能力

AutoGLM的核心是AutoGLM-Phone-9B模型，这是一个基于GLM-4.1V-9B-Thinking架构的视觉语言模型。该模型能够同时处理屏幕截图和用户的自然语言指令，理解当前界面状态，并输出结构化的操作指令。

模型支持两种版本：
- **AutoGLM-Phone-9B**：针对中文手机应用优化的版本
- **AutoGLM-Phone-9B-Multilingual**：支持英语等多语言场景

模型的推理过程包含显式的思维链（Chain-of-Thought），例如：

```
用户指令：比较这个洗发水在京东和淘宝上的价格

模型思考：
1. 当前在小红书App上，需要先退出当前应用
2. 启动京东App，搜索目标商品
3. 记录京东的价格
4. 启动淘宝App，搜索同一商品
5. 记录淘宝的价格
6. 比较后选择更便宜的平台

输出动作：do(action="Launch", app="京东")
```

### ADB/HDC动作执行层

Agent通过ADB（Android Debug Bridge）与Android设备通信，对于鸿蒙设备则使用HDC工具。支持的操作类型包括：

| 操作类型 | 功能描述 |
|---------|---------|
| Launch | 启动指定应用 |
| Tap | 点击屏幕指定坐标 |
| Type | 输入文本内容 |
| Swipe | 滑动屏幕 |
| Back/Home | 返回上一页/返回桌面 |
| Long Press | 长按操作 |
| Double Tap | 双击操作 |
| Wait | 等待页面加载 |
| Take_over | 请求人工接管（用于登录、验证码等敏感场景）|

### 多平台模型支持

项目内置了18个AI服务商的预设配置，用户可以通过`--platform`参数一键切换：

- 智谱BigModel（autoglm-phone）
- OpenAI（GPT-4V等）
- Anthropic（Claude系列）
- Google Gemini
- DeepSeek
- Moonshot（Kimi）
- 豆包（Doubao）
- 通义千问（Qwen）

这种多提供商支持让用户可以根据成本、性能和可用性灵活选择模型服务。

---

## 应用场景与实战价值

### 支持的应用生态

AutoGLM目前支持50+款主流中文Android应用和60+款鸿蒙原生应用，覆盖：

**社交与通讯**：微信、QQ、微博、飞书、企业微信
**电商购物**：淘宝、京东、拼多多、唯品会、得物、闲鱼
**生活服务**：美团、大众点评、饿了么、高德地图、百度地图
**出行旅游**：携程、12306、滴滴出行、同程旅行
**内容娱乐**：Bilibili、抖音、快手、爱奇艺、腾讯视频
**音乐音频**：网易云音乐、QQ音乐、喜马拉雅、汽水音乐
**知识社区**：小红书、知乎、豆瓣、今日头条

### 典型使用场景

1. **跨平台比价购物**：自动在多个电商App间搜索同一商品并比较价格
2. **日程管理自动化**：根据自然语言描述自动创建日历事件、设置提醒
3. **社交消息处理**：自动打开微信搜索联系人并发送消息
4. **出行规划**：查询火车票、预订酒店、叫车服务的一站式自动化
5. **内容检索**：在小红书、知乎等平台搜索特定主题并收集信息

### 安全与隐私设计

项目内置了敏感操作确认机制：
- 对于支付、密码输入等敏感页面，系统会自动检测并请求人工接管
- 支持自定义确认回调函数，让用户在关键操作前进行二次确认
- 提供详细的日志输出（verbose模式），让用户清楚了解AI的每一步决策

---

## 部署与使用方式

### 环境准备

1. **Android 7.0+设备**，开启开发者模式和USB调试
2. **ADB工具**安装并配置环境变量
3. **ADB Keyboard**应用（用于中文输入）
4. **Python 3.10+**环境

### 模型服务选项

**选项A：使用云端API（推荐新手）**

```bash
# 使用智谱BigModel
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your-api-key" \
  "打开美团搜索附近的火锅店"
```

**选项B：本地部署（需要24GB+显存）**

使用vLLM或SGLang部署AutoGLM-Phone-9B模型，然后通过本地API地址调用。

### 远程调试支持

项目支持通过WiFi进行远程ADB/HDC调试，无需保持USB连接：

```bash
# Android设备
adb connect 192.168.1.100:5555

# 鸿蒙设备
hdc tconn 192.168.1.100:5555
```

---

## 技术亮点与创新

1. **端到端视觉理解**：不同于传统自动化工具需要预先定义UI元素，AutoGLM直接通过截图理解界面，具备更强的泛化能力

2. **显式思维链**：模型输出的推理过程对用户可见，增强了可解释性和调试能力

3. **多模态动作空间**：将点击、滑动、输入等操作统一为结构化输出，便于模型学习和执行

4. **平台无关性**：通过ADB/HDC抽象层，支持Android和HarmonyOS两大移动生态

5. **开放生态集成**：已完成与Midscene.js等UI自动化SDK的适配，支持通过JavaScript或YAML定义复杂流程

---

## 局限性与注意事项

1. **设备兼容性**：不同手机厂商的定制系统可能存在兼容性问题，部分机型需要同时开启"USB调试"和"USB调试(安全设置)"

2. **敏感页面限制**：银行、支付等应用的敏感页面会触发黑屏保护，此时需要人工接管

3. **网络依赖**：使用云端模型服务时需要稳定的网络连接

4. **学习曲线**：虽然比编写自动化脚本简单，但初次部署仍需要配置ADB环境、安装依赖等步骤

---

## 总结与展望

AutoGLM代表了移动AI Agent领域的重要进展，它将大语言模型的推理能力与计算机视觉的感知能力相结合，让手机自动化从"脚本驱动"走向"意图驱动"。对于开发者而言，这是一个研究多模态Agent架构的宝贵开源项目；对于普通用户，它展示了未来人机交互的可能性——用自然语言指挥手机完成复杂任务。

随着端侧模型能力的提升和移动设备算力的增强，类似AutoGLM的Phone Agent有望在智能助手、无障碍辅助、自动化测试等领域发挥更大价值。项目的开源也为社区贡献和生态扩展提供了基础，值得持续关注。