章节 01
导读 / 主楼:LiteRT-LM:Google 开源边缘设备大语言模型推理框架
Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架,专为在边缘设备上部署大语言模型而设计,支持多平台、硬件加速和多模态输入。
正文
Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架,专为在边缘设备上部署大语言模型而设计,支持多平台、硬件加速和多模态输入。
章节 01
Google AI Edge 推出的 LiteRT-LM 是一个生产级、高性能的开源推理框架,专为在边缘设备上部署大语言模型而设计,支持多平台、硬件加速和多模态输入。
章节 02
章节 03
原作者与来源
bash\n使用 uv 安装\nuv tool install litert-lm\n\n运行 Gemma 3n 模型\nlitert-lm run \\\n --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \\\n gemma-3n-E2B-it-int4 \\\n --prompt=\"What is the capital of France?\"\n\n启用推测解码加速\nlitert-lm run \\\n --from-huggingface-repo=litert-community/gemma-4-E4B-it-litert-lm \\\n gemma-4-E4B-it.litertlm \\\n --backend=gpu \\\n --enable-speculative-decoding=true \\\n --prompt=\"What is the capital of France?\"\n\n\nCLI 工具支持 Linux、macOS 和 Windows 三大桌面平台,提供 CPU、GPU、NPU 三种后端选项。\n\nGoogle AI Edge Gallery\n\nGoogle 还发布了 AI Edge Gallery 应用,让用户能够立即在设备上体验端侧 AI。该应用已上架 Google Play 和 App Store,内置了多款优化后的模型,支持聊天、图像理解等功能。\n\n---\n\n实际应用场景\n\n隐私优先的本地 AI\n\n在医疗、金融等敏感领域,数据不出设备是硬性要求。LiteRT-LM 使完全离线的 LLM 推理成为可能,用户输入无需上传云端,从根本上消除隐私泄露风险。\n\n低延迟实时交互\n\n云端推理受网络延迟制约,而边缘推理可实现毫秒级响应。这对于语音助手、实时翻译、智能相机等场景至关重要。\n\n离线可用性\n\n在网络不稳定或无网络环境下(如航空、野外作业),端侧模型确保核心 AI 功能持续可用。\n\n成本优化\n\n对于高频应用场景,将推理负载从云端转移到边缘设备可显著降低 API 调用成本。\n\n---\n\n版本演进与未来展望\n\n近期重要更新\n\n- v0.12.0(最新):Swift 和 Web JavaScript API 进入预览阶段,Flutter 社区支持成熟,CLI 完善跨平台 CPU/GPU 支持\n- v0.11.0:Gemma 4 的 MTP 支持,Windows 原生 CLI 支持\n- v0.10.1:Gemma 4 全面支持,CLI 工具首发\n- v0.9.0:工具调用能力增强\n- v0.8.0:桌面 GPU 支持与多模态能力\n- v0.7.0:Gemma 模型 NPU 加速\n\n技术趋势\n\nLiteRT-LM 的发展反映了端侧 AI 的几个关键趋势:模型小型化(SLM)、硬件异构化、多模态融合和代理能力增强。随着 Gemma 4 等新一代高效模型的发布,以及移动设备 NPU 算力的持续提升,边缘 LLM 推理正从实验走向大规模生产部署。\n\n---\n\n总结\n\nLiteRT-LM 代表了 Google 在端侧 AI 基础设施领域的战略投入。通过开源、跨平台、硬件加速三位一体的设计,它降低了在边缘设备部署大语言模型的技术门槛。对于希望构建隐私安全、低延迟、离线可用的 AI 应用的开发者而言,LiteRT-LM 提供了一个经过生产验证的可靠选择。\n\n随着 Swift 和 JavaScript API 从预览走向稳定,以及社区生态的持续扩展,LiteRT-LM 有望成为端侧 LLM 推理的事实标准之一。