正文

OIRD：Android 系统级 AI 推理守护进程的设计与实现

深入解析 Jibar-OS 的 oird 项目，一个为 Android 系统打造的原生 C++ AI 推理守护进程，支持多模型共享、上下文池管理和跨后端调度。

AndroidLLM推理引擎系统架构移动AI开源

发布时间 2026/04/24 05:13最近活动 2026/04/24 05:21预计阅读 7 分钟

章节 01

导读 / 主楼：OIRD：Android 系统级 AI 推理守护进程的设计与实现

深入解析 Jibar-OS 的 oird 项目，一个为 Android 系统打造的原生 C++ AI 推理守护进程，支持多模型共享、上下文池管理和跨后端调度。

章节 02

背景

OIRD：Android 系统级 AI 推理守护进程的设计与实现\n\n在移动设备上运行大型语言模型（LLM）正成为行业热点，但如何在 Android 系统层面高效、安全地管理模型推理资源，仍然是一个技术挑战。Jibar-OS 团队开源的 oird（Open Intelligence Runtime Daemon）项目，为我们展示了一种系统级的解决方案。\n\n## 项目背景与定位\n\noird 是一个原生 C++ 守护进程，专为 Android 的 Open Intelligence Runtime 设计。它不仅仅是一个简单的模型加载器，而是作为系统服务运行，拥有自己的 SELinux 安全域（`u:r:oird:s0`），通过 AIDL 接口向系统其他组件提供标准化的 AI 推理能力。\n\n这种设计意味着 oird 位于操作系统层面，而非普通的应用层。它能够为整个系统的 AI 需求提供统一的服务入口，避免了每个应用各自加载模型的资源浪费。\n\n## 核心架构设计\n\n### 多模型共享机制\n\noird 最显著的特性之一是模型共享能力。当多个应用请求相同的模型能力时，oird 只在内存中维护一份模型副本，所有调用者共享访问。这种设计在移动设备有限的内存预算下尤为重要——想象一下，如果每个 AI 助手应用都独立加载一个 7B 参数的模型，系统内存将迅速耗尽。\n\n### 上下文池与优先级调度\n\n为了高效处理并发请求，oird 实现了上下文池（ContextPool）机制。对于基于 llama.cpp 的模型，它维护一个推理上下文池；对于 Whisper 语音模型，则有专门的 WhisperPool。每个池都配备了优先级感知的等待队列，确保高优先级任务能够及时获得计算资源。\n\n### KV-Cache 内存管理\n\n大模型推理中的 KV-Cache 往往占据大量内存。oird 将 KV-Cache 纳入常驻内存预算的计算，使得模型驱逐决策更加准确。当内存压力增大时，系统能够基于真实的内存占用情况做出智能的模型卸载决策，而非盲目释放资源。\n\n## 多后端支持\n\noird 的另一大亮点是后端无关的架构设计。它不绑定特定的推理引擎，而是根据模型能力自动选择最优后端：\n\n- llama.cpp：用于 LLM 推理\n- whisper.cpp：用于语音识别\n- ONNX Runtime：支持 ONNX 格式的视觉语言模型（VLM）\n- libmtmd：用于多模态处理\n\n这种灵活性使 oird 能够适应不同类型的 AI 工作负载，从文本生成到语音转录，再到图像理解，都能统一调度。\n\n## 系统集成与部署\n\noird 作为 AOSP（Android Open Source Project）的一部分进行构建，输出路径为 `/system_ext/bin/oird`。它通过 `prebuilt_etc` 机制安装到系统分区，并在启动时由 `servicemanager` 注册为系统服务。\n\n构建流程遵循标准的 AOSP 工作流：\n\n`bash\ncd ~/aaosp\nsource build/envsetup.sh\nlunch aosp_cf_x86_64_phone-trunk_staging-userdebug\nm -j8 oird\n`\n\n## 生态依赖与扩展\n\noird 并非孤立存在，它依托于一整套 Jibar-OS 生态：\n\n- oir-framework-addons：提供 AIDL 接口定义\n- platform_external_llamacpp：llama.cpp 的 Android 移植\n- platform_external_whispercpp：Whisper 的 Android 移植\n- platform_external_onnxruntime：ONNX Runtime 集成\n\n这种模块化的架构使得开发者可以根据需求选择集成哪些组件，也为后续扩展新的推理后端留下了空间。\n\n## 实践意义与展望\n\noird 的出现，标志着移动 AI 推理正在从"应用级玩具"向"系统级基础设施"演进。对于设备厂商而言，这意味着可以在系统层面统一优化 AI 性能；对于应用开发者而言，则可以通过标准化接口调用 AI 能力，无需关心底层模型加载和资源管理的复杂性。\n\n随着端侧 AI 模型的不断轻量化，类似 oird 的系统级推理框架将成为移动操作系统的标准配置。Jibar-OS 的这一开源贡献，为行业提供了一个值得参考的实现范例。

章节 03

补充观点 1

OIRD：Android 系统级 AI 推理守护进程的设计与实现\n\n在移动设备上运行大型语言模型（LLM）正成为行业热点，但如何在 Android 系统层面高效、安全地管理模型推理资源，仍然是一个技术挑战。Jibar-OS 团队开源的 oird（Open Intelligence Runtime Daemon）项目，为我们展示了一种系统级的解决方案。\n\n项目背景与定位\n\noird 是一个原生 C++ 守护进程，专为 Android 的 Open Intelligence Runtime 设计。它不仅仅是一个简单的模型加载器，而是作为系统服务运行，拥有自己的 SELinux 安全域（u:r:oird:s0），通过 AIDL 接口向系统其他组件提供标准化的 AI 推理能力。\n\n这种设计意味着 oird 位于操作系统层面，而非普通的应用层。它能够为整个系统的 AI 需求提供统一的服务入口，避免了每个应用各自加载模型的资源浪费。\n\n核心架构设计\n\n多模型共享机制\n\noird 最显著的特性之一是模型共享能力。当多个应用请求相同的模型能力时，oird 只在内存中维护一份模型副本，所有调用者共享访问。这种设计在移动设备有限的内存预算下尤为重要——想象一下，如果每个 AI 助手应用都独立加载一个 7B 参数的模型，系统内存将迅速耗尽。\n\n上下文池与优先级调度\n\n为了高效处理并发请求，oird 实现了上下文池（ContextPool）机制。对于基于 llama.cpp 的模型，它维护一个推理上下文池；对于 Whisper 语音模型，则有专门的 WhisperPool。每个池都配备了优先级感知的等待队列，确保高优先级任务能够及时获得计算资源。\n\nKV-Cache 内存管理\n\n大模型推理中的 KV-Cache 往往占据大量内存。oird 将 KV-Cache 纳入常驻内存预算的计算，使得模型驱逐决策更加准确。当内存压力增大时，系统能够基于真实的内存占用情况做出智能的模型卸载决策，而非盲目释放资源。\n\n多后端支持\n\noird 的另一大亮点是后端无关的架构设计。它不绑定特定的推理引擎，而是根据模型能力自动选择最优后端：\n\n- llama.cpp：用于 LLM 推理\n- whisper.cpp：用于语音识别\n- ONNX Runtime：支持 ONNX 格式的视觉语言模型（VLM）\n- libmtmd：用于多模态处理\n\n这种灵活性使 oird 能够适应不同类型的 AI 工作负载，从文本生成到语音转录，再到图像理解，都能统一调度。\n\n系统集成与部署\n\noird 作为 AOSP（Android Open Source Project）的一部分进行构建，输出路径为 /system_ext/bin/oird。它通过 prebuilt_etc 机制安装到系统分区，并在启动时由 servicemanager 注册为系统服务。\n\n构建流程遵循标准的 AOSP 工作流：\n\nbash\ncd ~/aaosp\nsource build/envsetup.sh\nlunch aosp_cf_x86_64_phone-trunk_staging-userdebug\nm -j8 oird\n\n\n生态依赖与扩展\n\noird 并非孤立存在，它依托于一整套 Jibar-OS 生态：\n\n- oir-framework-addons：提供 AIDL 接口定义\n- platform_external_llamacpp：llama.cpp 的 Android 移植\n- platform_external_whispercpp：Whisper 的 Android 移植\n- platform_external_onnxruntime：ONNX Runtime 集成\n\n这种模块化的架构使得开发者可以根据需求选择集成哪些组件，也为后续扩展新的推理后端留下了空间。\n\n实践意义与展望\n\noird 的出现，标志着移动 AI 推理正在从"应用级玩具"向"系统级基础设施"演进。对于设备厂商而言，这意味着可以在系统层面统一优化 AI 性能；对于应用开发者而言，则可以通过标准化接口调用 AI 能力，无需关心底层模型加载和资源管理的复杂性。\n\n随着端侧 AI 模型的不断轻量化，类似 oird 的系统级推理框架将成为移动操作系统的标准配置。Jibar-OS 的这一开源贡献，为行业提供了一个值得参考的实现范例。

OIRD：Android 系统级 AI 推理守护进程的设计与实现

导读 / 主楼：OIRD：Android 系统级 AI 推理守护进程的设计与实现

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现