# LiteRT-LM：Google 开源边缘设备大语言模型推理框架

> Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架，专为在边缘设备上部署大语言模型而设计，支持多平台、硬件加速和多模态输入。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-02T19:13:34.000Z
- 最近活动: 2026-06-02T19:19:16.452Z
- 热度: 118.9
- 关键词: LiteRT-LM, 边缘计算, 大语言模型, 端侧 AI, Google, Gemma, 推理优化, NPU 加速, 多模态, 工具调用
- 页面链接: https://www.zingnex.cn/forum/thread/litert-lm-google
- Canonical: https://www.zingnex.cn/forum/thread/litert-lm-google
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：google-ai-edge
- 来源平台：github
- 原始标题：LiteRT-LM
- 原始链接：https://github.com/google-ai-edge/LiteRT-LM
- 来源发布时间/更新时间：2026-06-02T19:13:34Z

## 原作者与来源\n\n- **原作者/维护者**：Google AI Edge\n- **来源平台**：GitHub\n- **原项目名称**：LiteRT-LM\n- **原始链接**：https://github.com/google-ai-edge/LiteRT-LM\n- **发布时间**：2026年6月2日\n\n---\n\n## 项目概述\n\nLiteRT-LM 是 Google 推出的生产级开源推理框架，旨在解决大语言模型（LLM）在边缘设备上部署的核心挑战。随着生成式 AI 从云端向终端设备迁移，如何在资源受限的手机、IoT 设备和浏览器中高效运行 LLM 成为关键问题。LiteRT-LM 通过跨平台支持和硬件加速，为开发者提供了一套完整的边缘推理解决方案。\n\n### 核心定位\n\n该项目定位于"生产就绪"（production-ready）框架，意味着它不仅提供实验性功能，而是经过 Google 内部产品验证的稳定方案。目前 LiteRT-LM 已赋能 Chrome 浏览器、Chromebook Plus、Pixel Watch 等 Google 产品中的端侧 AI 体验。\n\n---\n\n## 技术架构与平台支持\n\n### 跨平台能力\n\nLiteRT-LM 实现了真正的全平台覆盖：\n\n- **移动端**：Android（Kotlin API）、iOS（Swift API，预览阶段）\n- **桌面端**：Linux、macOS、Windows\n- **Web 端**：浏览器内 JavaScript API，支持 WebGPU/WebCPU\n- **IoT 设备**：Raspberry Pi 等嵌入式平台\n\n这种全覆盖策略使开发者能够使用统一的技术栈，将 AI 能力部署到从高端手机到低成本 IoT 设备的广泛硬件生态中。\n\n### 多语言 SDK\n\n框架提供了丰富的语言绑定，适应不同开发场景：\n\n| 语言 | 状态 | 最佳适用场景 |\n|------|------|-------------|\n| Python | 稳定版 | 原型开发与脚本编写 |\n| Kotlin | 稳定版 | Android 应用与 JVM 生态 |\n| Swift | 预览版 | 原生 iOS 与 macOS 应用 |\n| JavaScript | 预览版 | 浏览器环境 |\n| Flutter | 社区维护 | 跨平台移动开发 |\n| C++ | 稳定版 | 高性能原生应用 |\n\n---\n\n## 硬件加速与性能优化\n\n### 异构计算支持\n\nLiteRT-LM 的核心优势在于对多种硬件加速器的深度优化：\n\n**GPU 加速**\n通过 Metal（iOS/macOS）、OpenCL/Vulkan（Android/Linux）和 DirectX（Windows）实现 GPU 推理加速，显著提升大模型运行效率。\n\n**NPU 支持**\n针对配备神经网络处理单元（NPU）的设备，LiteRT-LM 从 v0.7.0 版本开始支持 NPU 加速，特别优化了 Gemma 系列模型的 NPU 推理路径。\n\n**CPU 回退**\n对于不具备专用 AI 加速器的设备，框架提供优化的 CPU 实现，确保基础功能可用性。\n\n### 多令牌预测（MTP）\n\nv0.11.0 版本引入的单位置多令牌预测（Single Position Multi-token Prediction）技术，使 Gemma 4 模型的推理速度提升最高达 3 倍。MTP 允许模型在每个生成步骤预测多个后续令牌，通过推测解码（speculative decoding）减少内存访问次数和计算延迟。\n\n---\n\n## 功能特性\n\n### 多模态输入\n\n从 v0.8.0 版本开始，LiteRT-LM 支持视觉和音频输入，使边缘设备能够处理图文混合任务。这为开发视觉问答、图像描述生成等应用奠定了基础。\n\n### 工具调用（Tool Use）\n\nv0.9.0 版本增强了函数调用能力，支持代理工作流（agentic workflows）。开发者可以定义外部工具接口，让模型在推理过程中调用函数获取实时数据或执行操作，实现真正的智能代理行为。\n\n### 模型生态\n\nLiteRT-LM 支持广泛的模型格式，包括：\n\n- **Gemma 系列**：Gemma 3n、Gemma 4（含 E2B/E4B 变体）\n- **Llama 系列**：Meta 的开源大模型\n- **Phi-4**：Microsoft 的高效小模型\n- **Qwen**：阿里巴巴的通义千问模型\n\n---\n\n## 开发者工具与生态\n\n### LiteRT-LM CLI\n\nv0.10.1 版本推出的命令行工具让开发者无需编写代码即可运行模型：\n\n```bash\n# 使用 uv 安装\nuv tool install litert-lm\n\n# 运行 Gemma 3n 模型\nlitert-lm run \\\n  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n  gemma-3n-E2B-it-int4 \\\n  --prompt=\"What is the capital of France?\"\n\n# 启用推测解码加速\nlitert-lm run \\\n  --from-huggingface-repo=litert-community/gemma-4-E4B-it-litert-lm \\\n  gemma-4-E4B-it.litertlm \\\n  --backend=gpu \\\n  --enable-speculative-decoding=true \\\n  --prompt=\"What is the capital of France?\"\n```\n\nCLI 工具支持 Linux、macOS 和 Windows 三大桌面平台，提供 CPU、GPU、NPU 三种后端选项。\n\n### Google AI Edge Gallery\n\nGoogle 还发布了 AI Edge Gallery 应用，让用户能够立即在设备上体验端侧 AI。该应用已上架 Google Play 和 App Store，内置了多款优化后的模型，支持聊天、图像理解等功能。\n\n---\n\n## 实际应用场景\n\n### 隐私优先的本地 AI\n\n在医疗、金融等敏感领域，数据不出设备是硬性要求。LiteRT-LM 使完全离线的 LLM 推理成为可能，用户输入无需上传云端，从根本上消除隐私泄露风险。\n\n### 低延迟实时交互\n\n云端推理受网络延迟制约，而边缘推理可实现毫秒级响应。这对于语音助手、实时翻译、智能相机等场景至关重要。\n\n### 离线可用性\n\n在网络不稳定或无网络环境下（如航空、野外作业），端侧模型确保核心 AI 功能持续可用。\n\n### 成本优化\n\n对于高频应用场景，将推理负载从云端转移到边缘设备可显著降低 API 调用成本。\n\n---\n\n## 版本演进与未来展望\n\n### 近期重要更新\n\n- **v0.12.0**（最新）：Swift 和 Web JavaScript API 进入预览阶段，Flutter 社区支持成熟，CLI 完善跨平台 CPU/GPU 支持\n- **v0.11.0**：Gemma 4 的 MTP 支持，Windows 原生 CLI 支持\n- **v0.10.1**：Gemma 4 全面支持，CLI 工具首发\n- **v0.9.0**：工具调用能力增强\n- **v0.8.0**：桌面 GPU 支持与多模态能力\n- **v0.7.0**：Gemma 模型 NPU 加速\n\n### 技术趋势\n\nLiteRT-LM 的发展反映了端侧 AI 的几个关键趋势：模型小型化（SLM）、硬件异构化、多模态融合和代理能力增强。随着 Gemma 4 等新一代高效模型的发布，以及移动设备 NPU 算力的持续提升，边缘 LLM 推理正从实验走向大规模生产部署。\n\n---\n\n## 总结\n\nLiteRT-LM 代表了 Google 在端侧 AI 基础设施领域的战略投入。通过开源、跨平台、硬件加速三位一体的设计，它降低了在边缘设备部署大语言模型的技术门槛。对于希望构建隐私安全、低延迟、离线可用的 AI 应用的开发者而言，LiteRT-LM 提供了一个经过生产验证的可靠选择。\n\n随着 Swift 和 JavaScript API 从预览走向稳定，以及社区生态的持续扩展，LiteRT-LM 有望成为端侧 LLM 推理的事实标准之一。
