LiteRT-LM：Google 开源边缘设备大语言模型推理框架

章节 01

导读 / 主楼：LiteRT-LM：Google 开源边缘设备大语言模型推理框架

Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架，专为在边缘设备上部署大语言模型而设计，支持多平台、硬件加速和多模态输入。

章节 02

原作者与来源

原作者/维护者：google-ai-edge
来源平台：github
原始标题：LiteRT-LM
原始链接：https://github.com/google-ai-edge/LiteRT-LM
来源发布时间/更新时间：2026-06-02T19:13:34Z

章节 03

补充观点 1

原作者与来源

原作者/维护者：google-ai-edge
来源平台：github
原始标题：LiteRT-LM
原始链接：https://github.com/google-ai-edge/LiteRT-LM
来源发布时间/更新时间：2026-06-02T19:13:34Z 原作者与来源\n\n- 原作者/维护者：Google AI Edge\n- 来源平台：GitHub\n- 原项目名称：LiteRT-LM\n- 原始链接：https://github.com/google-ai-edge/LiteRT-LM\n- 发布时间：2026年6月2日\n\n---\n\n项目概述\n\nLiteRT-LM 是 Google 推出的生产级开源推理框架，旨在解决大语言模型（LLM）在边缘设备上部署的核心挑战。随着生成式 AI 从云端向终端设备迁移，如何在资源受限的手机、IoT 设备和浏览器中高效运行 LLM 成为关键问题。LiteRT-LM 通过跨平台支持和硬件加速，为开发者提供了一套完整的边缘推理解决方案。\n\n核心定位\n\n该项目定位于"生产就绪"（production-ready）框架，意味着它不仅提供实验性功能，而是经过 Google 内部产品验证的稳定方案。目前 LiteRT-LM 已赋能 Chrome 浏览器、Chromebook Plus、Pixel Watch 等 Google 产品中的端侧 AI 体验。\n\n---\n\n技术架构与平台支持\n\n跨平台能力\n\nLiteRT-LM 实现了真正的全平台覆盖：\n\n- 移动端：Android（Kotlin API）、iOS（Swift API，预览阶段）\n- 桌面端：Linux、macOS、Windows\n- Web 端：浏览器内 JavaScript API，支持 WebGPU/WebCPU\n- IoT 设备：Raspberry Pi 等嵌入式平台\n\n这种全覆盖策略使开发者能够使用统一的技术栈，将 AI 能力部署到从高端手机到低成本 IoT 设备的广泛硬件生态中。\n\n多语言 SDK\n\n框架提供了丰富的语言绑定，适应不同开发场景：\n\n| 语言 | 状态 | 最佳适用场景 |\n|------|------|-------------|\n| Python | 稳定版 | 原型开发与脚本编写 |\n| Kotlin | 稳定版 | Android 应用与 JVM 生态 |\n| Swift | 预览版 | 原生 iOS 与 macOS 应用 |\n| JavaScript | 预览版 | 浏览器环境 |\n| Flutter | 社区维护 | 跨平台移动开发 |\n| C++ | 稳定版 | 高性能原生应用 |\n\n---\n\n硬件加速与性能优化\n\n异构计算支持\n\nLiteRT-LM 的核心优势在于对多种硬件加速器的深度优化：\n\nGPU 加速\n通过 Metal（iOS/macOS）、OpenCL/Vulkan（Android/Linux）和 DirectX（Windows）实现 GPU 推理加速，显著提升大模型运行效率。\n\nNPU 支持\n针对配备神经网络处理单元（NPU）的设备，LiteRT-LM 从 v0.7.0 版本开始支持 NPU 加速，特别优化了 Gemma 系列模型的 NPU 推理路径。\n\nCPU 回退\n对于不具备专用 AI 加速器的设备，框架提供优化的 CPU 实现，确保基础功能可用性。\n\n多令牌预测（MTP）\n\nv0.11.0 版本引入的单位置多令牌预测（Single Position Multi-token Prediction）技术，使 Gemma 4 模型的推理速度提升最高达 3 倍。MTP 允许模型在每个生成步骤预测多个后续令牌，通过推测解码（speculative decoding）减少内存访问次数和计算延迟。\n\n---\n\n功能特性\n\n多模态输入\n\n从 v0.8.0 版本开始，LiteRT-LM 支持视觉和音频输入，使边缘设备能够处理图文混合任务。这为开发视觉问答、图像描述生成等应用奠定了基础。\n\n工具调用（Tool Use）\n\nv0.9.0 版本增强了函数调用能力，支持代理工作流（agentic workflows）。开发者可以定义外部工具接口，让模型在推理过程中调用函数获取实时数据或执行操作，实现真正的智能代理行为。\n\n模型生态\n\nLiteRT-LM 支持广泛的模型格式，包括：\n\n- Gemma 系列：Gemma 3n、Gemma 4（含 E2B/E4B 变体）\n- Llama 系列：Meta 的开源大模型\n- Phi-4：Microsoft 的高效小模型\n- Qwen：阿里巴巴的通义千问模型\n\n---\n\n开发者工具与生态\n\nLiteRT-LM CLI\n\nv0.10.1 版本推出的命令行工具让开发者无需编写代码即可运行模型：\n\nbash\n使用 uv 安装\nuv tool install litert-lm\n\n运行 Gemma 3n 模型\nlitert-lm run \\\n --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n gemma-3n-E2B-it-int4 \\\n --prompt=\"What is the capital of France?\"\n\n启用推测解码加速\nlitert-lm run \\\n --from-huggingface-repo=litert-community/gemma-4-E4B-it-litert-lm \\\n gemma-4-E4B-it.litertlm \\\n --backend=gpu \\\n --enable-speculative-decoding=true \\\n --prompt=\"What is the capital of France?\"\n\n\nCLI 工具支持 Linux、macOS 和 Windows 三大桌面平台，提供 CPU、GPU、NPU 三种后端选项。\n\nGoogle AI Edge Gallery\n\nGoogle 还发布了 AI Edge Gallery 应用，让用户能够立即在设备上体验端侧 AI。该应用已上架 Google Play 和 App Store，内置了多款优化后的模型，支持聊天、图像理解等功能。\n\n---\n\n实际应用场景\n\n隐私优先的本地 AI\n\n在医疗、金融等敏感领域，数据不出设备是硬性要求。LiteRT-LM 使完全离线的 LLM 推理成为可能，用户输入无需上传云端，从根本上消除隐私泄露风险。\n\n低延迟实时交互\n\n云端推理受网络延迟制约，而边缘推理可实现毫秒级响应。这对于语音助手、实时翻译、智能相机等场景至关重要。\n\n离线可用性\n\n在网络不稳定或无网络环境下（如航空、野外作业），端侧模型确保核心 AI 功能持续可用。\n\n成本优化\n\n对于高频应用场景，将推理负载从云端转移到边缘设备可显著降低 API 调用成本。\n\n---\n\n版本演进与未来展望\n\n近期重要更新\n\n- v0.12.0（最新）：Swift 和 Web JavaScript API 进入预览阶段，Flutter 社区支持成熟，CLI 完善跨平台 CPU/GPU 支持\n- v0.11.0：Gemma 4 的 MTP 支持，Windows 原生 CLI 支持\n- v0.10.1：Gemma 4 全面支持，CLI 工具首发\n- v0.9.0：工具调用能力增强\n- v0.8.0：桌面 GPU 支持与多模态能力\n- v0.7.0：Gemma 模型 NPU 加速\n\n技术趋势\n\nLiteRT-LM 的发展反映了端侧 AI 的几个关键趋势：模型小型化（SLM）、硬件异构化、多模态融合和代理能力增强。随着 Gemma 4 等新一代高效模型的发布，以及移动设备 NPU 算力的持续提升，边缘 LLM 推理正从实验走向大规模生产部署。\n\n---\n\n总结\n\nLiteRT-LM 代表了 Google 在端侧 AI 基础设施领域的战略投入。通过开源、跨平台、硬件加速三位一体的设计，它降低了在边缘设备部署大语言模型的技术门槛。对于希望构建隐私安全、低延迟、离线可用的 AI 应用的开发者而言，LiteRT-LM 提供了一个经过生产验证的可靠选择。\n\n随着 Swift 和 JavaScript API 从预览走向稳定，以及社区生态的持续扩展，LiteRT-LM 有望成为端侧 LLM 推理的事实标准之一。

LiteRT-LM：Google 开源边缘设备大语言模型推理框架

导读 / 主楼：LiteRT-LM：Google 开源边缘设备大语言模型推理框架

原作者与来源

补充观点 1

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

图神经网络革新全球天气预报：从Graph Weather到多模型融合的开源实践

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

Vertica专家技能：一站式企业级数据库迁移与优化指南