章节 01
导读:asiai-inference-server——Apple Silicon本地LLM推理的舰队管理中枢
asiai-inference-server是专为Apple Silicon设计的LLM推理引擎管理工具,核心解决macOS统一内存压缩器导致VRAM无法释放的痛点,提供安装、启动、停止、卸载和编排功能,支持单机或多机集群控制,是asiai观测工具的控制平面伴侣,助力本地AI工作流的高效运维。
正文
专为 Apple Silicon 设计的 LLM 推理引擎管理工具,解决 macOS 统一内存压缩器导致的 VRAM 无法释放痛点,提供安装、启动、停止、卸载和编排功能,支持多机群控。
章节 01
asiai-inference-server是专为Apple Silicon设计的LLM推理引擎管理工具,核心解决macOS统一内存压缩器导致VRAM无法释放的痛点,提供安装、启动、停止、卸载和编排功能,支持单机或多机集群控制,是asiai观测工具的控制平面伴侣,助力本地AI工作流的高效运维。
章节 02
在Apple Silicon Mac上运行本地LLM时,macOS统一内存架构的压缩器导致进程终止后VRAM仍被保留,频繁切换模型易引发内存不足;同时,多推理引擎(Ollama、LM Studio等)的安装管理涉及繁琐命令行与配置,缺乏统一控制平面。
章节 03
asiai-inference-server是asiai(Apple Silicon AI观测/基准测试CLI)的控制平面项目,负责管理推理引擎的全生命周期(安装、启动、停止、卸载、编排),核心使命是通过引擎卸载API、LaunchDaemon重启和sudo purge命令确定性回收内存,并支持单机/多机集群管理。
章节 04
基于实战经验总结的关键需求:
章节 05
采用分层架构,核心特性包括:
章节 06
三大关键场景:
章节 07
当前处于v0.0.1 pre-alpha阶段,路线图如下:
| 版本 | 功能范围 | 状态 |
|---|---|---|
| v0.0 | 仓库骨架 + 打包 | 进行中 |
| v0.1 | 安装/卸载/启动/停止 + 内存清理 | 下一版本 |
| v0.2 | 配置文件切换(TOML应用/回滚) | 计划中 |
| v0.3 | 集群管理器(多Mac库存、SSH分发) | 计划中 |
| v0.4 | Web驾驶舱 + 可选HTTP代理 | 计划中 |
| v1.0 | MCP写入工具 + PyPI/Homebrew发布 | 计划中 |
章节 08
项目采用Apache-2.0许可证,由Jean-Marc Nahlovsky创建,作为Apple Silicon AI生态的一部分,与asiai观测工具互补,解决本地LLM部署的运维挑战,为macOS本地大模型用户提供关键基础设施补充。