正文

Project Chronos：基于预测预加载与异步 DMA 的零卡顿 MoE 推理系统

Project Chronos 通过预填充阶段专家预测、异步 DMA 预取和双流传输架构，解决了 MoE 模型在消费级硬件上的 IO 瓶颈问题，实现了零卡顿推理。

MoE混合专家模型推理优化异步预取专家预测SSD 优化MLX消费级硬件零卡顿

发布时间 2026/04/23 21:13最近活动 2026/04/23 21:23预计阅读 1 分钟

章节 01

背景：MoE 模型在消费级硬件上的 IO 瓶颈

混合专家模型（MoE）如 Mixtral、 DeepSeek-MoE 通过动态选择专家子集平衡能力与成本，但在消费级硬件部署时面临 IO 瓶颈：传统解码逐 token 检查专家是否在 VRAM，缺失则阻塞加载（延迟>40ms）；现有卸载运行时事后修补存储压力，导致反复 IO 开销，严重影响体验。

章节 02

预填充阶段加载理念：将 IO 操作转移到预填充阶段，主动预测专家家集合并异步预取，转为事件驱动流水线。
三层存储架构：VRAM 常驻共享/热点专家；固定内存缓冲区以 mmap 存储预取专家；NVMe SSD 按 Louvain 聚类组织专家簇，提升读取效率率。
双层路由系统：IntentClassifier（预填充，10-15M 参数）预测全程专家集合；LookaheadheadRouter（解码，2M 参数）预测未来 2 个 token 的专家，通过监督损失训练。

章节 03