Zing 论坛

正文

Google 开源 LiteRT-LM:专为边缘设备打造的高性能大模型推理框架

Google AI Edge 团队发布 LiteRT-LM,一个支持 Android、iOS、Web、桌面及 IoT 设备的跨平台大模型推理框架,具备 GPU/NPU 硬件加速、多模态输入和函数调用能力。

LiteRT-LM边缘计算大语言模型端侧推理Google AIGemma移动 AI跨平台NPU 加速多模态
发布时间 2026/06/03 03:13最近活动 2026/06/03 03:18预计阅读 6 分钟
Google 开源 LiteRT-LM:专为边缘设备打造的高性能大模型推理框架
1

章节 01

导读 / 主楼:Google 开源 LiteRT-LM:专为边缘设备打造的高性能大模型推理框架

Google AI Edge 团队发布 LiteRT-LM,一个支持 Android、iOS、Web、桌面及 IoT 设备的跨平台大模型推理框架,具备 GPU/NPU 硬件加速、多模态输入和函数调用能力。

2

章节 02

原作者与来源

3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:google-ai-edge
  • 来源平台:github
  • 原始标题:LiteRT-LM
  • 原始链接:https://github.com/google-ai-edge/LiteRT-LM
  • 来源发布时间/更新时间:2026-06-02T19:13:34Z 原作者与来源\n\n- 原作者/维护者: Google AI Edge 团队\n- 来源平台: GitHub\n- 原文标题: LiteRT-LM\n- 原文链接: https://github.com/google-ai-edge/LiteRT-LM\n- 发布时间: 2025年(最新版本 v0.12.0)\n\n---\n\n背景:边缘计算的 AI 推理挑战\n\n随着大语言模型(LLM)在云端取得突破性进展,将 AI 能力下沉到边缘设备成为行业新焦点。然而,边缘部署面临独特挑战:设备算力有限、内存紧张、功耗敏感,同时用户对实时响应和隐私保护的要求却丝毫不减。传统云端推理模式难以满足这些需求,亟需专门面向边缘场景优化的推理框架。\n\nGoogle AI Edge 团队基于多年在移动 AI 领域的积累,推出了 LiteRT-LM——一个专为边缘设备设计的高性能开源推理框架,旨在让开发者能够轻松将大模型能力带到手机、平板、IoT 设备甚至浏览器中。\n\n---\n\nLiteRT-LM 核心架构与技术特性\n\n跨平台统一支持\n\nLiteRT-LM 最显著的特点是其广泛的跨平台能力。框架原生支持:\n\n- Android(Kotlin/Java API)\n- iOS(Swift API,v0.12.0 新增)\n- Web 浏览器(JavaScript API,v0.12.0 新增)\n- 桌面系统(Linux、macOS、Windows)\n- IoT 设备(如 Raspberry Pi)\n\n这种全覆盖策略让开发者可以用同一套模型文件和相似的 API 模式,将应用部署到几乎所有主流平台,大幅降低多平台开发的维护成本。\n\n硬件加速与性能优化\n\nLiteRT-LM 深度整合了 GPU 和 NPU 硬件加速能力,针对不同芯片架构进行了专门优化。框架支持多后端执行:\n\n- CPU 后端:通用 fallback,保证兼容性\n- GPU 后端:通过 Metal(iOS/macOS)、DirectX/DirectML(Windows)、OpenCL/Vulkan(Linux/Android)实现高性能并行计算\n- NPU 后端:利用专用神经网络加速器,在支持设备上实现极致能效比\n\nv0.12.0 版本还引入了 Swift 和 JavaScript 的原生 API 支持,使得 iOS 应用和 Web 应用都能充分利用底层硬件加速。\n\n多模态与工具调用能力\n\n除了文本生成,LiteRT-LM 还支持:\n\n- 多模态输入:可同时处理文本、图像和音频输入,支持视觉-语言模型在设备端运行\n- 函数调用(Tool Use):内置函数调用能力,支持构建具备代理能力的边缘 AI 应用,让模型能够调用本地 API 或执行特定任务\n\n这些特性使 LiteRT-LM 不仅仅是一个推理引擎,更是一个完整的边缘 AI 应用开发平台。\n\n---\n\n模型生态与兼容性\n\nLiteRT-LM 支持多种主流开源模型架构,包括:\n\n- Gemma 系列(Google 自家模型,包括最新的 Gemma 4)\n- Llama 系列(Meta 开源模型)\n- Phi-4(Microsoft 轻量级模型)\n- Qwen(阿里巴巴开源模型)\n\n这种广泛的模型支持让开发者可以根据应用场景和硬件限制灵活选择最合适的模型,而不必被锁定在特定生态中。\n\n---\n\n快速上手与开发体验\n\nLiteRT-LM 提供了多种接入方式,从最简单的命令行工具到完整的编程 API:\n\nCLI 工具(无需编写代码)\n\n通过 uv 工具可以快速安装并运行模型:\n\nbash\nuv tool install litert-lm\n\nlitert-lm run \\\n --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n gemma-3n-E2B-it-int4 \\\n --prompt=\"What is the capital of France?\"\n\n\n编程 API\n\n框架为 Python、Kotlin、Swift、C++ 等语言提供了稳定的 API 支持。例如,Python API 适合快速原型开发,而 C++ API 则为性能关键型应用提供底层控制能力。\n\n---\n\n实际应用场景与案例\n\nLiteRT-LM 已应用于 Google 多款产品:\n\n- Chrome 浏览器:在浏览器中实现本地 AI 功能\n- Chromebook Plus:为笔记本电脑提供端侧 AI 能力\n- Pixel Watch:在可穿戴设备上运行轻量级语言模型\n- Google AI Edge Gallery:官方示例应用,展示框架能力\n\n这些实际部署证明了 LiteRT-LM 在生产环境中的稳定性和性能表现。\n\n---\n\n技术亮点:多令牌预测(MTP)\n\nv0.11.0 版本引入的单位置多令牌预测(Single Position Multi-token Prediction, MTP)技术值得关注。该技术允许模型在每个解码步骤生成多个令牌,结合投机解码(Speculative Decoding)可将 Gemma 4 的推理速度提升最高达 3 倍。这种"一次预测多个词"的策略,在保持输出质量的同时显著降低了延迟。\n\n---\n\n社区生态与 Flutter 支持\n\n虽然 Flutter 支持目前由社区维护(通过 flutter_gemma 包),但 Google 官方提供了详细的集成指南。这种"官方指导 + 社区实现"的模式,既保证了框架核心功能的稳定性,又赋予了生态快速扩展的灵活性。\n\n---\n\n总结与展望\n\nLiteRT-LM 代表了边缘 AI 推理框架的重要进展。它解决了边缘部署中最棘手的几个问题:跨平台一致性、硬件加速利用、以及多模态支持。对于希望在移动应用、IoT 设备或 Web 应用中集成大模型能力的开发者来说,LiteRT-LM 提供了一个经过 Google 产品验证的可靠选择。\n\n随着 v0.12.0 引入的 Swift 和 JavaScript API,以及持续扩展的模型支持,LiteRT-LM 正在成为一个真正通用的边缘 AI 开发平台。对于关注端侧 AI、隐私计算和离线智能的开发者而言,这是一个值得深入研究和尝试的项目。