Zing 论坛

正文

LiteRT-LM:Google 开源边缘设备大语言模型推理框架

Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架,专为在边缘设备上部署大语言模型而设计,支持多平台、硬件加速和多模态输入。

LiteRT-LM边缘计算大语言模型端侧 AIGoogleGemma推理优化NPU 加速多模态工具调用
发布时间 2026/06/03 03:13最近活动 2026/06/03 03:19预计阅读 7 分钟
LiteRT-LM:Google 开源边缘设备大语言模型推理框架
1

章节 01

导读 / 主楼:LiteRT-LM:Google 开源边缘设备大语言模型推理框架

Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架,专为在边缘设备上部署大语言模型而设计,支持多平台、硬件加速和多模态输入。

2

章节 02

原作者与来源

3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:google-ai-edge
  • 来源平台:github
  • 原始标题:LiteRT-LM
  • 原始链接:https://github.com/google-ai-edge/LiteRT-LM
  • 来源发布时间/更新时间:2026-06-02T19:13:34Z 原作者与来源\n\n- 原作者/维护者:Google AI Edge\n- 来源平台:GitHub\n- 原项目名称:LiteRT-LM\n- 原始链接https://github.com/google-ai-edge/LiteRT-LM\n- 发布时间:2026年6月2日\n\n---\n\n项目概述\n\nLiteRT-LM 是 Google 推出的生产级开源推理框架,旨在解决大语言模型(LLM)在边缘设备上部署的核心挑战。随着生成式 AI 从云端向终端设备迁移,如何在资源受限的手机、IoT 设备和浏览器中高效运行 LLM 成为关键问题。LiteRT-LM 通过跨平台支持和硬件加速,为开发者提供了一套完整的边缘推理解决方案。\n\n核心定位\n\n该项目定位于"生产就绪"(production-ready)框架,意味着它不仅提供实验性功能,而是经过 Google 内部产品验证的稳定方案。目前 LiteRT-LM 已赋能 Chrome 浏览器、Chromebook Plus、Pixel Watch 等 Google 产品中的端侧 AI 体验。\n\n---\n\n技术架构与平台支持\n\n跨平台能力\n\nLiteRT-LM 实现了真正的全平台覆盖:\n\n- 移动端:Android(Kotlin API)、iOS(Swift API,预览阶段)\n- 桌面端:Linux、macOS、Windows\n- Web 端:浏览器内 JavaScript API,支持 WebGPU/WebCPU\n- IoT 设备:Raspberry Pi 等嵌入式平台\n\n这种全覆盖策略使开发者能够使用统一的技术栈,将 AI 能力部署到从高端手机到低成本 IoT 设备的广泛硬件生态中。\n\n多语言 SDK\n\n框架提供了丰富的语言绑定,适应不同开发场景:\n\n| 语言 | 状态 | 最佳适用场景 |\n|------|------|-------------|\n| Python | 稳定版 | 原型开发与脚本编写 |\n| Kotlin | 稳定版 | Android 应用与 JVM 生态 |\n| Swift | 预览版 | 原生 iOS 与 macOS 应用 |\n| JavaScript | 预览版 | 浏览器环境 |\n| Flutter | 社区维护 | 跨平台移动开发 |\n| C++ | 稳定版 | 高性能原生应用 |\n\n---\n\n硬件加速与性能优化\n\n异构计算支持\n\nLiteRT-LM 的核心优势在于对多种硬件加速器的深度优化:\n\nGPU 加速\n通过 Metal(iOS/macOS)、OpenCL/Vulkan(Android/Linux)和 DirectX(Windows)实现 GPU 推理加速,显著提升大模型运行效率。\n\nNPU 支持\n针对配备神经网络处理单元(NPU)的设备,LiteRT-LM 从 v0.7.0 版本开始支持 NPU 加速,特别优化了 Gemma 系列模型的 NPU 推理路径。\n\nCPU 回退\n对于不具备专用 AI 加速器的设备,框架提供优化的 CPU 实现,确保基础功能可用性。\n\n多令牌预测(MTP)\n\nv0.11.0 版本引入的单位置多令牌预测(Single Position Multi-token Prediction)技术,使 Gemma 4 模型的推理速度提升最高达 3 倍。MTP 允许模型在每个生成步骤预测多个后续令牌,通过推测解码(speculative decoding)减少内存访问次数和计算延迟。\n\n---\n\n功能特性\n\n多模态输入\n\n从 v0.8.0 版本开始,LiteRT-LM 支持视觉和音频输入,使边缘设备能够处理图文混合任务。这为开发视觉问答、图像描述生成等应用奠定了基础。\n\n工具调用(Tool Use)\n\nv0.9.0 版本增强了函数调用能力,支持代理工作流(agentic workflows)。开发者可以定义外部工具接口,让模型在推理过程中调用函数获取实时数据或执行操作,实现真正的智能代理行为。\n\n模型生态\n\nLiteRT-LM 支持广泛的模型格式,包括:\n\n- Gemma 系列:Gemma 3n、Gemma 4(含 E2B/E4B 变体)\n- Llama 系列:Meta 的开源大模型\n- Phi-4:Microsoft 的高效小模型\n- Qwen:阿里巴巴的通义千问模型\n\n---\n\n开发者工具与生态\n\nLiteRT-LM CLI\n\nv0.10.1 版本推出的命令行工具让开发者无需编写代码即可运行模型:\n\nbash\n使用 uv 安装\nuv tool install litert-lm\n\n运行 Gemma 3n 模型\nlitert-lm run \\\n --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n gemma-3n-E2B-it-int4 \\\n --prompt=\"What is the capital of France?\"\n\n启用推测解码加速\nlitert-lm run \\\n --from-huggingface-repo=litert-community/gemma-4-E4B-it-litert-lm \\\n gemma-4-E4B-it.litertlm \\\n --backend=gpu \\\n --enable-speculative-decoding=true \\\n --prompt=\"What is the capital of France?\"\n\n\nCLI 工具支持 Linux、macOS 和 Windows 三大桌面平台,提供 CPU、GPU、NPU 三种后端选项。\n\nGoogle AI Edge Gallery\n\nGoogle 还发布了 AI Edge Gallery 应用,让用户能够立即在设备上体验端侧 AI。该应用已上架 Google Play 和 App Store,内置了多款优化后的模型,支持聊天、图像理解等功能。\n\n---\n\n实际应用场景\n\n隐私优先的本地 AI\n\n在医疗、金融等敏感领域,数据不出设备是硬性要求。LiteRT-LM 使完全离线的 LLM 推理成为可能,用户输入无需上传云端,从根本上消除隐私泄露风险。\n\n低延迟实时交互\n\n云端推理受网络延迟制约,而边缘推理可实现毫秒级响应。这对于语音助手、实时翻译、智能相机等场景至关重要。\n\n离线可用性\n\n在网络不稳定或无网络环境下(如航空、野外作业),端侧模型确保核心 AI 功能持续可用。\n\n成本优化\n\n对于高频应用场景,将推理负载从云端转移到边缘设备可显著降低 API 调用成本。\n\n---\n\n版本演进与未来展望\n\n近期重要更新\n\n- v0.12.0(最新):Swift 和 Web JavaScript API 进入预览阶段,Flutter 社区支持成熟,CLI 完善跨平台 CPU/GPU 支持\n- v0.11.0:Gemma 4 的 MTP 支持,Windows 原生 CLI 支持\n- v0.10.1:Gemma 4 全面支持,CLI 工具首发\n- v0.9.0:工具调用能力增强\n- v0.8.0:桌面 GPU 支持与多模态能力\n- v0.7.0:Gemma 模型 NPU 加速\n\n技术趋势\n\nLiteRT-LM 的发展反映了端侧 AI 的几个关键趋势:模型小型化(SLM)、硬件异构化、多模态融合和代理能力增强。随着 Gemma 4 等新一代高效模型的发布,以及移动设备 NPU 算力的持续提升,边缘 LLM 推理正从实验走向大规模生产部署。\n\n---\n\n总结\n\nLiteRT-LM 代表了 Google 在端侧 AI 基础设施领域的战略投入。通过开源、跨平台、硬件加速三位一体的设计,它降低了在边缘设备部署大语言模型的技术门槛。对于希望构建隐私安全、低延迟、离线可用的 AI 应用的开发者而言,LiteRT-LM 提供了一个经过生产验证的可靠选择。\n\n随着 Swift 和 JavaScript API 从预览走向稳定,以及社区生态的持续扩展,LiteRT-LM 有望成为端侧 LLM 推理的事实标准之一。