章节 01
导读 / 主楼:Apple Silicon上的LLM推理革命:m5-infer如何实现4.5倍性能提升
m5-infer是一款专为Apple Silicon优化的MLX推理引擎,在M5 MacBook Air上实现40 tok/s的解码速度,较Ollama提升4.5倍。通过跨轮状态持久化、混合投机解码等创新技术,在保持输出质量的同时大幅降低延迟。
正文
m5-infer是一款专为Apple Silicon优化的MLX推理引擎,在M5 MacBook Air上实现40 tok/s的解码速度,较Ollama提升4.5倍。通过跨轮状态持久化、混合投机解码等创新技术,在保持输出质量的同时大幅降低延迟。
章节 01
m5-infer是一款专为Apple Silicon优化的MLX推理引擎,在M5 MacBook Air上实现40 tok/s的解码速度,较Ollama提升4.5倍。通过跨轮状态持久化、混合投机解码等创新技术,在保持输出质量的同时大幅降低延迟。
章节 02
在Qwen 3.5 9B 4-bit量化模型的测试中,m5-infer展现出压倒性优势:
| 指标 | Ollama | mlx_lm.server | m5-infer v1.0.0 |
|---|---|---|---|
| 解码速度 (tok/s) | 8.9 | 17.0 | 40.0 |
| 相对Ollama | 1.0x | 1.9x | 4.5x |
| 相对mlx_lm.server | 0.5x | 1.0x | 2.4x |
更令人印象深刻的是延迟和质量的平衡:
所有测试在同一台Mac、同一模型、相同提示下进行,性能差距完全来自推理引擎层的优化。
章节 03
m5-infer基于Apple的MLX框架构建,定位为OpenAI兼容的HTTP推理服务器,可直接替代mlx_lm.server。其核心架构围绕Qwen 3.5混合模型(GatedDeltaNet + Full Attention)优化,同时通过模型家族抽象层支持Qwen 2.5/3.6、Llama 3.x、Mistral、Gemma 2/3/4等多个模型系列。
章节 04
Qwen 3.5采用24层GatedDeltaNet(GDN)+ 8层全注意力层的混合架构。传统投机解码在GDN层面临一个致命问题:当草稿token被拒绝时,KV缓存可以回滚,但GDN的循环状态和卷积缓冲区已经前进了整个草稿窗口,导致状态损坏。
m5-infer的解决方案是在每次验证前,将所有GDN层的(recurrent_state, conv_buf)快照到预分配的tensor池中。拒绝时从快照O(1)恢复,热路径零分配。实测在Qwen 3.5 9B上带来35%的吞吐量提升(29→40 tok/s),接受率约70%。
每轮生成结束后,m5-infer将完整模型状态(量化KV缓存 + GDN循环/卷积缓冲区)序列化到磁盘,以提示前缀token的原始字节哈希为键。由于哈希基于token字节而非解码文本,相同的系统提示和工具模式即使附加了不同的用户输入也能命中缓存。
效果:12K token工具模式的预热TTFT从11秒降至2-3秒,典型agent工作负载的缓存命中率超过90%。
Qwen 3.5的链式思维被包裹在...标签中。常见失败模式包括:
m5-infer的解决方案:
效果:结构化JSON提取任务评分从1.40提升至7.85(+461%),代码生成从3.10提升至6.55(+111%)。
Qwen 3.5在思考模式禁用时有一个安全对齐问题:在长上下文(12K+)配合短检索查询时,有时会拒绝回答,声称"无法透露权威信息"——即使信息来自用户自己提供的内容。
m5-infer在路由层自动检测长上下文+短查询模式,强制启用思考模式,从而绕过这一限制。实测长上下文检索成功率从0/6提升至6/6。
对于"简单"token,跳过影响较小的层,减少计算量。
模型内部的投机解码机制,在置信度高时提前终止生成。
MoE(混合专家)模型中并发执行多个专家路径。
通过mx.compile进行Metal内核融合,带来约40%的吞吐量提升(17→24 tok/s)。
章节 05
下表展示了各项优化对最终性能的贡献:
| 创新点 | 解码速度 | 质量 | TTFT/延迟 |
|---|---|---|---|
| 混合投机解码 | +35% | 输出等价 | — |
| CTRSP | — | — | 12K预热TTFT 11s→2-3s |
| 思考感知预算 | — | +36% Opus评分 | — |
| 针检索启发式 | — | 长上下文检索 0/6→6/6 | — |
| ALS + SSEE + PES | +10-15% | — | — |
| X5-R编译前向 | +40% | — | 冷启动+2-5s |
| 完整栈综合 | 4.5x | +11% | 5.8x |
章节 06
m5-infer的设计目标明确指向生产级Apple Silicon部署:
章节 07
章节 08