正文

Speculative Decoding 实战：在 Apple Silicon 上加速 LLM 推理的完整实现

一个简洁的 PyTorch 实现，展示如何在 Apple M2 Max 上通过投机解码算法将推理吞吐量从贪婪解码的 0.83× 优化到 1.16×，并详细剖析了优化过程中的关键决策与失败尝试。

speculative decodingLLM inferencePyTorchApple SiliconMPSdraft modelverifier model推理加速投机解码

发布时间 2026/05/16 10:15最近活动 2026/05/16 10:17预计阅读 2 分钟

章节 01

导读：Apple Silicon上投机解码实战的核心价值

berezucc/speculative-decoding项目提供约200行PyTorch实现，展示在Apple M2 Max上通过投机解码算法将推理吞吐量从贪婪解码的0.83×优化到1.16×，包含优化过程的关键决策与失败尝试，是理论转实践的详尽工程笔记。

章节 02

投机解码通过小型草稿模型快速生成候选token，大型验证模型并行验证，保持输出质量不变提升速度。流程：草稿模型生成K个候选token，验证模型拼接上下文并行验证，接受规则遵循论文数学保证，确保输出分布与仅用大模型的贪婪解码完全一致（温度0时比特级相同）。

章节 03

项目严格验证正确性，单元测试确保投机解码输出与纯验证器贪婪解码逐token匹配；代码模块化设计（speculative.py主循环、utils.py工具函数、benchmarks/目录），方便替换模型实验。

章节 04

优化分为五阶段：1.基础实现（性能低于基线）；2.缓存优化（减少冗余计算但固定开销仍瓶颈）；3.循环重组（关键突破，消除额外前向传播，首次超基线）；4.FP16尝试（失败，MPS瓶颈非内存带宽）；5.torch.compile尝试（失败，MPS无LayerNorm底层实现）。

章节 05

M2 Max上优化后PyTorch实现达46.9 tok/s，比贪婪解码44.5 tok/s快1.06×；接受率随草稿token数K和温度变化符合预期；剖析显示88%时间在前向传播，固定开销约25ms，边际成本0.7-1ms，效率依赖减少验证器调用次数。

章节 06

MLX的4-bit量化模型贪婪解码达119.3 tok/s（PyTorch的2.69倍），证明运行时比算法更影响性能；MLX中投机解码无帮助，因内存带宽受限，算法开销超收益，揭示适用边界：验证器相对较慢、带宽非绝对瓶颈场景。

章节 07

1.正确性优先：需通过验证工具确保输出一致；2.剖析驱动优化：定位瓶颈避免盲目尝试；3.硬件感知设计：根据硬件特性调优草稿与验证模型比例；记录失败尝试（FP16、torch.compile）节省踩坑时间。

章节 08

该项目不仅是算法实现，更是详尽工程笔记，展示理论转代码、迭代优化、诚实记录失败，为理解投机解码及资源受限设备推理加速提供不可多得的参考资料。