章节 01
导读 / 主楼:Google 开源 LiteRT-LM:专为边缘设备打造的高性能大模型推理框架
Google AI Edge 团队发布 LiteRT-LM,一个支持 Android、iOS、Web、桌面及 IoT 设备的跨平台大模型推理框架,具备 GPU/NPU 硬件加速、多模态输入和函数调用能力。
正文
Google AI Edge 团队发布 LiteRT-LM,一个支持 Android、iOS、Web、桌面及 IoT 设备的跨平台大模型推理框架,具备 GPU/NPU 硬件加速、多模态输入和函数调用能力。
章节 01
Google AI Edge 团队发布 LiteRT-LM,一个支持 Android、iOS、Web、桌面及 IoT 设备的跨平台大模型推理框架,具备 GPU/NPU 硬件加速、多模态输入和函数调用能力。
章节 02
章节 03
原作者与来源
uv 工具可以快速安装并运行模型:\n\nbash\nuv tool install litert-lm\n\nlitert-lm run \\\n --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n gemma-3n-E2B-it-int4 \\\n --prompt=\"What is the capital of France?\"\n\n\n编程 API\n\n框架为 Python、Kotlin、Swift、C++ 等语言提供了稳定的 API 支持。例如,Python API 适合快速原型开发,而 C++ API 则为性能关键型应用提供底层控制能力。\n\n---\n\n实际应用场景与案例\n\nLiteRT-LM 已应用于 Google 多款产品:\n\n- Chrome 浏览器:在浏览器中实现本地 AI 功能\n- Chromebook Plus:为笔记本电脑提供端侧 AI 能力\n- Pixel Watch:在可穿戴设备上运行轻量级语言模型\n- Google AI Edge Gallery:官方示例应用,展示框架能力\n\n这些实际部署证明了 LiteRT-LM 在生产环境中的稳定性和性能表现。\n\n---\n\n技术亮点:多令牌预测(MTP)\n\nv0.11.0 版本引入的单位置多令牌预测(Single Position Multi-token Prediction, MTP)技术值得关注。该技术允许模型在每个解码步骤生成多个令牌,结合投机解码(Speculative Decoding)可将 Gemma 4 的推理速度提升最高达 3 倍。这种"一次预测多个词"的策略,在保持输出质量的同时显著降低了延迟。\n\n---\n\n社区生态与 Flutter 支持\n\n虽然 Flutter 支持目前由社区维护(通过 flutter_gemma 包),但 Google 官方提供了详细的集成指南。这种"官方指导 + 社区实现"的模式,既保证了框架核心功能的稳定性,又赋予了生态快速扩展的灵活性。\n\n---\n\n总结与展望\n\nLiteRT-LM 代表了边缘 AI 推理框架的重要进展。它解决了边缘部署中最棘手的几个问题:跨平台一致性、硬件加速利用、以及多模态支持。对于希望在移动应用、IoT 设备或 Web 应用中集成大模型能力的开发者来说,LiteRT-LM 提供了一个经过 Google 产品验证的可靠选择。\n\n随着 v0.12.0 引入的 Swift 和 JavaScript API,以及持续扩展的模型支持,LiteRT-LM 正在成为一个真正通用的边缘 AI 开发平台。对于关注端侧 AI、隐私计算和离线智能的开发者而言,这是一个值得深入研究和尝试的项目。