Zing 论坛

正文

Pocket Crew:在旗舰手机上运行的 Mixture-of-Agents 推理系统

Pocket Crew 是一个专为旗舰智能手机设计的端侧 AI 推理系统,采用 Mixture-of-Agents 架构。多个小型模型独立生成答案草稿,再由合成器评估并融合最佳逻辑,通过顺序加载策略有效控制内存占用,实现无需联网的高质量本地推理。

Mixture-of-Agentson-device AImobile LLMAndroidlocal inferenceprivacy-preserving AIsmartphone AIllama.cppedge computingMoA
发布时间 2026/03/31 20:15最近活动 2026/03/31 20:19预计阅读 2 分钟
Pocket Crew:在旗舰手机上运行的 Mixture-of-Agents 推理系统
1

章节 01

Pocket Crew:旗舰手机端侧MoA推理系统导读

Pocket Crew是专为旗舰智能手机设计的端侧AI推理系统,采用Mixture-of-Agents(MoA)架构。核心特点包括:无需联网即可本地运行,通过多模型协作生成高质量答案;采用顺序加载策略控制内存占用,适配手机资源约束;所有推理过程本地完成,保障用户隐私。本文将从背景、架构、实现、应用及未来展望等方面展开介绍。

2

章节 02

端侧AI的挑战与MoA架构的解决方案

随着手机算力提升,端侧AI向复杂推理演进,但面临模型能力与内存/续航的矛盾。Mixture-of-Agents架构提供创新路径:多个中小模型独立生成答案草稿,合成器融合最佳逻辑,既提升质量又高效利用资源。Pocket Crew是该思路在移动端的实践,实现本地多模型协作推理。

3

章节 03

Pocket Crew的核心架构与内存优化

MoA流水线:分为草稿生成(多模型各生成答案,各有侧重)和合成(合成器评估融合最佳逻辑)。内存优化:采用顺序加载策略,模型逐个加载生成后卸载,仅保留合成器在内存,解决手机内存限制问题。隐私保障:所有推理本地完成,数据不出设备,适合敏感场景。

4

章节 04

Pocket Crew的技术实现细节

Android原生开发:基于llama.cpp移植的llama-android模块,Kotlin语言,组件包括agents(协作逻辑)、core(调度与内存管理)、feature(UI)。模型配置:通过model_config.json自定义模型集合、加载顺序;未来支持BYOK模式(替换为云端模型)。ARM优化:集成KleidiAI、Vulkan SDK加速,利用NEON指令集优化计算。

5

章节 05

Pocket Crew的应用场景与价值

  1. 隐私敏感场景:律师、医生等处理敏感信息时,本地推理杜绝云端泄露风险;2. 离线环境:飞机/地铁/偏远地区可使用(翻译、攻略总结、数据处理);3. 日常助手:邮件撰写、日程规划、学习辅导,多模型协作提供更周全回答。
6

章节 06

Pocket Crew的意义与未来展望

Pocket Crew代表端侧AI方向:通过架构创新而非单模型规模提升效果。开源特性支持社区创新(模型组合、任务优化、IoT扩展)。未来将支持BYOK模式,结合端云协同;随着手机算力提升,有望普及更多设备,让高质量AI推理随身可用。