正文

Apple Silicon上的完整本地AI推理栈：oMLX与asr-router实现低延迟多模态推理

本文介绍了一个基于Apple Silicon和MLX框架的本地AI推理解决方案，涵盖大语言模型、语音识别、嵌入向量、OCR和多模态视觉理解，通过双服务架构实现高效推理与实时转录。

MLXApple Silicon本地推理语音识别多模态AI大语言模型oMLXSenseVoicegemma-4Qwen

发布时间 2026/05/07 12:13最近活动 2026/05/07 12:21预计阅读 3 分钟

Apple Silicon上的完整本地AI推理栈：oMLX与asr-router实现低延迟多模态推理

章节 01

主楼：Apple Silicon本地AI推理栈——oMLX与asr-router双服务实现低延迟多模态推理

介绍基于Apple Silicon和MLX框架的完整本地AI推理栈项目，通过oMLX网关与asr-router双服务架构，实现大语言模型、语音识别、嵌入向量、OCR及多模态视觉理解等全功能AI能力。该方案支持低延迟推理与实时转录，提供OpenAI兼容REST API，降低开发者迁移成本，充分利用Apple Silicon的硬件优势。

章节 02

背景：本地AI推理的需求与Apple Silicon的机遇

随着大语言模型与多模态AI快速发展，本地设备高效运行这些模型成为开发者关注焦点。Apple Silicon的统一内存架构及MLX框架，为本地推理提供了硬件与软件基础。本项目旨在构建覆盖多模态能力的本地推理栈，解决本地运行AI模型的效率与资源优化问题。

章节 03

核心架构：双服务协同的设计理念

项目核心采用双服务协同设计：oMLX网关作为主推理引擎，负责LLM、视觉语言模型、嵌入模型及OCR任务；asr-router作为FastAPI侧车服务，专注语音识别（实时转录、会议场景处理）。优势在于资源隔离与任务优化，双服务均暴露OpenAI兼容REST API，便于开发者使用熟悉的客户端库调用。

章节 04

oMLX网关：多模态推理的核心引擎

oMLX网关支持多种模型类型：语言模型覆盖Qwen3.5-9B（5.8GB）到Qwen3.5-35B-A3B MoE（18GB）及gemma-4-26b（14GB）；视觉理解由supergemma4-26b多模态模型提供；OCR使用PaddleOCR-VL-1.5；嵌入服务基于Qwen3-Embedding-0.6B。此外，实现连续批处理与SSD缓存机制：空闲时KV缓存换出到SSD释放内存，请求时快速恢复，平衡响应速度与资源利用率。

章节 05

asr-router：智能语音路由与会议流水线

asr-router提供两种工作模式：

IM模式：短音频（≤30秒）用SenseVoice模型（228MB int8量化），实现60-90ms低延迟解码（RTF≈0.01）；长音频/高质量需求则转发到oMLX的Qwen3-ASR-1.7B模型。
会议模式：异步流水线包含VAD+说话人分离→SenseVoice转录标注→gemma-4上下文审核（修正术语/跨语言同音词）→生成原始转录、审核后Markdown、时间线JSON、SRT字幕及会议摘要五种输出。

章节 06

性能证据：上下文审核的显著改进

对gemma-4上下文审核功能的性能评估显示：在真实双语会议音频测试中，使用术语表后字符错误率（CER）从32.08%降至22.64%，相对改进29.4%。该结果证明多轮审核机制对提升专业术语、多语言场景转录质量的显著价值。

章节 07

部署实践与硬件要求

部署与使用：

oMLX通过Homebrew安装，asr-router作为launchd代理运行（支持开机自启、崩溃自动恢复）；
双服务分别监听18080/18081端口，用统一API密钥认证；
调用方式与云端OpenAI API一致，Python客户端库可无缝接入。硬件要求：基础16GB内存（推荐32GB）；35B MoE模型需至少24GB空闲内存；SenseVoice与嵌入模型常驻占约1.3GB内存。

章节 08