正文

OlliteRT：将你的安卓手机变成本地LLM推理服务器

OlliteRT是一款创新的开源Android应用，让用户能够将手机转变为OpenAI兼容的本地大语言模型推理服务器。基于Google的LiteRT运行时，支持多模态推理、工具调用和流式响应，无需云端连接即可在设备上运行Gemma、Qwen等模型。

OlliteRTAndroidLLM本地推理LiteRTOpenAI API边缘AI隐私保护开源Gemma

发布时间 2026/04/25 19:14最近活动 2026/04/25 19:17预计阅读 2 分钟

章节 01

OlliteRT：安卓手机变身本地LLM推理服务器（导读）

OlliteRT是一款创新的开源Android应用，基于Google LiteRT运行时，可将安卓手机转变为OpenAI兼容的本地大语言模型推理服务器。支持多模态推理、工具调用和流式响应，无需云端连接即可运行Gemma、Qwen等模型，保护用户隐私并降低AI应用硬件门槛。

章节 02

项目背景与核心理念

OlliteRT由开发者NightMean创建，设计理念为"Android版的Ollama"。用户通过下载模型并启动，手机即可通过LiteRT运行时提供OpenAI兼容HTTP API服务。核心优势是完全本地化：无云端依赖、无需API密钥、无订阅费用，数据始终留存设备，满足隐私需求。

章节 03

技术架构与核心功能

基于Google LiteRT运行时（原TensorFlow Lite）和NanoHTTPD轻量级服务器，提供OpenAI兼容接口。支持从HuggingFace下载或导入本地.litertlm模型，推荐模型包括Gemma 4系列（多模态）、Gemma3 1B（纯文本低配置）等；具备多模态处理（文本/视觉/音频）、工具调用（实验性）、流式响应；内置性能测试工具和实时监控仪表板，支持Prometheus指标导出。

章节 04

低功耗与持久运行特性

相比传统GPU服务器300瓦以上功耗，手机运行仅需5-10瓦，适合旧手机长期使用。支持开机自动启动，实现"设置一次长期运行"；开发者提醒避免高负载时在密闭环境（如被窝）运行以防设备发热。

章节 05

客户端兼容性说明

采用OpenAI兼容API格式，可与OpenWebUI、OpenClaw、Home Assistant、Python SDK、curl等主流客户端配合。只需配置服务器地址（如http://手机IP:8000/v1）即可使用本地模型。

章节 06

技术限制与未来展望

当前限制：同一时间仅加载一个模型、工具调用通过提示词注入、Token计数基于字符估算。未来计划支持按需模型加载，通过API请求动态切换模型无需手动操作。

章节 07

开源与社区支持

采用Apache 2.0许可证开源，代码透明；提供稳定版、测试版、开发版三种构建版本；文档详尽（模型指南、客户端教程、API文档等）；支持开发者贡献（构建说明、HuggingFace OAuth集成）。

章节 08

总结与价值

OlliteRT代表端侧AI新范式，将LLM能力带到移动设备，保护隐私同时降低使用门槛。适合隐私敏感用户、闲置设备利用者、边缘AI开发者；随着端侧技术进步，此类工具将更强大易用，OlliteRT已迈出坚实一步。

OlliteRT：将你的安卓手机变成本地LLM推理服务器

OlliteRT：安卓手机变身本地LLM推理服务器（导读）

项目背景与核心理念

技术架构与核心功能

低功耗与持久运行特性

客户端兼容性说明

技术限制与未来展望

开源与社区支持

总结与价值

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现