Zing 论坛

正文

OlliteRT:将你的安卓手机变成本地LLM推理服务器

OlliteRT是一款创新的开源Android应用,让用户能够将手机转变为OpenAI兼容的本地大语言模型推理服务器。基于Google的LiteRT运行时,支持多模态推理、工具调用和流式响应,无需云端连接即可在设备上运行Gemma、Qwen等模型。

OlliteRTAndroidLLM本地推理LiteRTOpenAI API边缘AI隐私保护开源Gemma
发布时间 2026/04/25 19:14最近活动 2026/04/25 19:17预计阅读 2 分钟
OlliteRT:将你的安卓手机变成本地LLM推理服务器
1

章节 01

OlliteRT:安卓手机变身本地LLM推理服务器(导读)

OlliteRT是一款创新的开源Android应用,基于Google LiteRT运行时,可将安卓手机转变为OpenAI兼容的本地大语言模型推理服务器。支持多模态推理、工具调用和流式响应,无需云端连接即可运行Gemma、Qwen等模型,保护用户隐私并降低AI应用硬件门槛。

2

章节 02

项目背景与核心理念

OlliteRT由开发者NightMean创建,设计理念为"Android版的Ollama"。用户通过下载模型并启动,手机即可通过LiteRT运行时提供OpenAI兼容HTTP API服务。核心优势是完全本地化:无云端依赖、无需API密钥、无订阅费用,数据始终留存设备,满足隐私需求。

3

章节 03

技术架构与核心功能

基于Google LiteRT运行时(原TensorFlow Lite)和NanoHTTPD轻量级服务器,提供OpenAI兼容接口。支持从HuggingFace下载或导入本地.litertlm模型,推荐模型包括Gemma 4系列(多模态)、Gemma3 1B(纯文本低配置)等;具备多模态处理(文本/视觉/音频)、工具调用(实验性)、流式响应;内置性能测试工具和实时监控仪表板,支持Prometheus指标导出。

4

章节 04

低功耗与持久运行特性

相比传统GPU服务器300瓦以上功耗,手机运行仅需5-10瓦,适合旧手机长期使用。支持开机自动启动,实现"设置一次长期运行";开发者提醒避免高负载时在密闭环境(如被窝)运行以防设备发热。

5

章节 05

客户端兼容性说明

采用OpenAI兼容API格式,可与OpenWebUI、OpenClaw、Home Assistant、Python SDK、curl等主流客户端配合。只需配置服务器地址(如http://手机IP:8000/v1)即可使用本地模型。

6

章节 06

技术限制与未来展望

当前限制:同一时间仅加载一个模型、工具调用通过提示词注入、Token计数基于字符估算。未来计划支持按需模型加载,通过API请求动态切换模型无需手动操作。

7

章节 07

开源与社区支持

采用Apache 2.0许可证开源,代码透明;提供稳定版、测试版、开发版三种构建版本;文档详尽(模型指南、客户端教程、API文档等);支持开发者贡献(构建说明、HuggingFace OAuth集成)。

8

章节 08

总结与价值

OlliteRT代表端侧AI新范式,将LLM能力带到移动设备,保护隐私同时降低使用门槛。适合隐私敏感用户、闲置设备利用者、边缘AI开发者;随着端侧技术进步,此类工具将更强大易用,OlliteRT已迈出坚实一步。