正文

mobile-model-SDK：iOS 与 macOS 上的端侧多模态大模型推理框架

mobile-model-SDK 是一个面向 iOS 和 macOS 的端侧多模态大模型推理 SDK，支持 MiniCPM-V 和 Gemma 4 等模型在设备上完全离线运行，提供 OpenAI 和 Anthropic 兼容的 API 接口。

端侧 AI多模态大模型iOSmacOSllama.cppMiniCPM-VGemma 4离线推理SwiftMetal

发布时间 2026/06/07 09:31最近活动 2026/06/07 09:53预计阅读 4 分钟

章节 01

导读 / 主楼：mobile-model-SDK：iOS 与 macOS 上的端侧多模态大模型推理框架

章节 02

原作者与来源

原作者/维护者：Shiyao-Huang
来源平台：GitHub
原始标题：mobile-model-SDK
原始链接：https://github.com/Shiyao-Huang/mobile-model-SDK
来源发布时间/更新时间：2026-06-07T01:31:51Z

章节 03

引言：端侧 AI 的崛起

随着大语言模型（LLM）技术的快速发展，越来越多的应用场景开始将 AI 能力从云端迁移到本地设备。端侧 AI 具有诸多优势：无需网络连接、数据隐私得到保障、响应延迟更低、不受 API 调用限制。然而，在移动设备上运行多模态大模型一直是一个技术挑战——如何在有限的计算资源下实现高质量的文本、图像甚至音频理解？

mobile-model-SDK 正是为解决这一挑战而生的开源项目。这是一个专为 iOS 和 macOS 设计的端侧多模态大模型推理 SDK，它让开发者能够在苹果设备上完全离线地运行小型视觉-语言模型和音频-语言模型，并提供与 OpenAI 和 Anthropic 兼容的 API 接口。

章节 04

技术基础：基于 llama.cpp 的 Metal 后端

mobile-model-SDK 的核心技术栈建立在 llama.cpp 之上，这是 Georgi Gerganov 开发的高性能大模型推理库，以其优秀的量化支持和跨平台能力而闻名。SDK 特别使用了 llama.cpp 的 mtmd 多模态栈，支持文本、图像和音频的联合处理。

在苹果生态系统中，SDK 充分利用了 Metal 后端进行 GPU 加速。Metal 是苹果专有的图形和计算 API，能够高效地利用 iPhone、iPad 和 Mac 设备上的 Apple Silicon 芯片的神经网络引擎和 GPU 资源。这种针对性的优化使得即使是资源受限的移动设备，也能够流畅地运行多模态大模型。

章节 05

支持的模型与能力矩阵

mobile-model-SDK 目前支持以下模型：

MiniCPM-V 4.6 (1.3B)：这是面壁智能（OpenBMB）开发的高效多模态模型，参数量仅 1.3B，但在视觉理解任务上表现出色。它特别擅长 OCR（光学字符识别）和 UI 理解，能够准确识别截图中的文字内容和界面元素。该模型支持文本和图像输入，但不支持音频。

Gemma 4 E2B / E4B：这是 Google 的 Gemma 4 系列模型，支持文本、图像和音频三种模态。其中 E2B 和 E4B 变体分别代表不同的参数规模。Gemma 4 的原生音频支持使其能够直接在设备上处理语音输入，实现语音到文本的转换和基于语音的问答。

值得注意的是，SDK 采用了模型无关的设计架构。开发者可以加载任何支持的 GGUF 格式模型，SDK 会自动检测模型的能力（视觉、音频支持）并应用正确的对话模板。添加新模型通常无需修改代码，只需放入对应的 GGUF 文件和 mmproj 文件即可。

章节 06

完全端侧运行

SDK 最显著的特性是所有推理都在设备本地完成，无需网络连接，不依赖任何云服务。这意味着：

隐私保护：用户的图像、音频和文本数据永远不会离开设备，对于处理敏感信息的应用（如医疗、金融）尤为重要。
离线可用：在没有网络连接的环境下（如飞行模式、偏远地区）仍然可以正常使用。
零 API 成本：无需支付云端 API 调用费用，一次性下载模型后即可无限次使用。

章节 07

多模态能力

SDK 支持三种输入模态的组合：

文本：作为基础模态，所有模型都支持文本输入和生成。

视觉：支持单张或多张图片输入，以及视频帧序列。图像会被编码为视觉 token，与文本 token 一起送入模型处理。图像标记在文本之前放置，符合 Gemma 4 的多模态约定。

音频：Gemma 4 系列模型支持原生语音输入。开发者可以录制 16kHz 单声道 WAV 音频，将其作为输入的一部分。音频标记在文本之后放置，符合 Gemma 4 的模态顺序约定。

章节 08

API 兼容性

为了降低开发者的接入门槛，SDK 提供了与主流云端 API 兼容的接口：

OpenAI 兼容模式：提供 ChatCompletionRequest 和流式响应块（streaming chunks），与 OpenAI 的 Chat Completions API 格式一致。熟悉 OpenAI SDK 的开发者可以无缝迁移。

Anthropic 兼容模式：提供 Messages API 类型和流式事件，与 Anthropic 的 Claude API 格式一致。这为使用 Claude 的开发者提供了熟悉的接口体验。

mobile-model-SDK：iOS 与 macOS 上的端侧多模态大模型推理框架

导读 / 主楼：mobile-model-SDK：iOS 与 macOS 上的端侧多模态大模型推理框架

原作者与来源

引言：端侧 AI 的崛起

技术基础：基于 llama.cpp 的 Metal 后端

支持的模型与能力矩阵

完全端侧运行

多模态能力

API 兼容性

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程