章节 01
主楼:Apple Silicon本地AI推理栈——oMLX与asr-router双服务实现低延迟多模态推理
介绍基于Apple Silicon和MLX框架的完整本地AI推理栈项目,通过oMLX网关与asr-router双服务架构,实现大语言模型、语音识别、嵌入向量、OCR及多模态视觉理解等全功能AI能力。该方案支持低延迟推理与实时转录,提供OpenAI兼容REST API,降低开发者迁移成本,充分利用Apple Silicon的硬件优势。
正文
本文介绍了一个基于Apple Silicon和MLX框架的本地AI推理解决方案,涵盖大语言模型、语音识别、嵌入向量、OCR和多模态视觉理解,通过双服务架构实现高效推理与实时转录。
章节 01
介绍基于Apple Silicon和MLX框架的完整本地AI推理栈项目,通过oMLX网关与asr-router双服务架构,实现大语言模型、语音识别、嵌入向量、OCR及多模态视觉理解等全功能AI能力。该方案支持低延迟推理与实时转录,提供OpenAI兼容REST API,降低开发者迁移成本,充分利用Apple Silicon的硬件优势。
章节 02
随着大语言模型与多模态AI快速发展,本地设备高效运行这些模型成为开发者关注焦点。Apple Silicon的统一内存架构及MLX框架,为本地推理提供了硬件与软件基础。本项目旨在构建覆盖多模态能力的本地推理栈,解决本地运行AI模型的效率与资源优化问题。
章节 03
项目核心采用双服务协同设计:oMLX网关作为主推理引擎,负责LLM、视觉语言模型、嵌入模型及OCR任务;asr-router作为FastAPI侧车服务,专注语音识别(实时转录、会议场景处理)。优势在于资源隔离与任务优化,双服务均暴露OpenAI兼容REST API,便于开发者使用熟悉的客户端库调用。
章节 04
oMLX网关支持多种模型类型:语言模型覆盖Qwen3.5-9B(5.8GB)到Qwen3.5-35B-A3B MoE(18GB)及gemma-4-26b(14GB);视觉理解由supergemma4-26b多模态模型提供;OCR使用PaddleOCR-VL-1.5;嵌入服务基于Qwen3-Embedding-0.6B。此外,实现连续批处理与SSD缓存机制:空闲时KV缓存换出到SSD释放内存,请求时快速恢复,平衡响应速度与资源利用率。
章节 05
asr-router提供两种工作模式:
章节 06
对gemma-4上下文审核功能的性能评估显示:在真实双语会议音频测试中,使用术语表后字符错误率(CER)从32.08%降至22.64%,相对改进29.4%。该结果证明多轮审核机制对提升专业术语、多语言场景转录质量的显著价值。
章节 07
部署与使用:
章节 08
本项目展示了Apple Silicon在本地AI推理领域的巨大潜力。通过双服务架构、智能任务路由与高效资源管理,单台Mac可构建功能完备的AI应用。随着MLX生态发展与模型量化技术进步,未来将有更多创新方案,让强大的AI能力真正触手可及。