Zing 论坛

正文

Project Chronos:基于预测预加载与异步 DMA 的零卡顿 MoE 推理系统

Project Chronos 通过预填充阶段专家预测、异步 DMA 预取和双流传输架构,解决了 MoE 模型在消费级硬件上的 IO 瓶颈问题,实现了零卡顿推理。

MoE混合专家模型推理优化异步预取专家预测SSD 优化MLX消费级硬件零卡顿
发布时间 2026/04/23 21:13最近活动 2026/04/23 21:23预计阅读 1 分钟
Project Chronos:基于预测预加载与异步 DMA 的零卡顿 MoE 推理系统
1

章节 01

背景:MoE 模型在消费级硬件上的 IO 瓶颈

混合专家模型(MoE)如 Mixtral、 DeepSeek-MoE 通过动态选择专家子集平衡能力与成本,但在消费级硬件部署时面临 IO 瓶颈:传统解码逐 token 检查专家是否在 VRAM,缺失则阻塞加载(延迟>40ms);现有卸载运行时事后修补存储压力,导致反复 IO 开销,严重影响体验。

2

章节 02

核心架构创新

  1. 预填充阶段加载理念:将 IO 操作转移到预填充阶段,主动预测专家家集合并异步预取,转为事件驱动流水线。
  2. 三层存储架构:VRAM 常驻共享/热点专家;固定内存缓冲区以 mmap 存储预取专家;NVMe SSD 按 Louvain 聚类组织专家簇,提升读取效率率。
  3. 双层路由系统:IntentClassifier(预填充,10-15M 参数)预测全程专家集合;LookaheadheadRouter(解码,2M 参数)预测未来 2 个 token 的专家,通过监督损失训练。
3

章节 03

关键技术实现

  • 双流传输与事件同步:H2D 流负责异步数据据传输,计算流并行执行,专家级事件同步避免全局阻塞,模拟 30ms SSD 延迟时保持 35ms+ 流水线松弛。
4

章节 04

导读 / 主楼:Project Chronos:基于预测预加载与异步 DMA 的零卡顿 MoE 推理系统

Project Chronos 通过预填充阶段专家预测、异步 DMA 预取和双流传输架构,解决了 MoE 模型在消费级硬件上的 IO 瓶颈问题,实现了零卡顿推理。