章节 01
【导读】Valve:生产级在线-离线推理混部系统节省2170块GPU
微软Valve系统在8054块GPU的生产环境中部署,通过亚毫秒级计算抢占、单次抢占保证、速率受限内存回收等核心技术,实现集群利用率提升34.6%,相当于节省2170块GPU成本。该系统对在线服务质量影响极小(首token时间增加<5%,每token输出时间增加<2%),且部署成本极低(仅需1行GPU驱动修改+20行推理框架补丁)。
正文
微软Valve系统在8054块GPU的生产环境中部署,通过亚毫秒级计算抢占和速率受限的内存回收,实现34.6%的集群利用率提升。
章节 01
微软Valve系统在8054块GPU的生产环境中部署,通过亚毫秒级计算抢占、单次抢占保证、速率受限内存回收等核心技术,实现集群利用率提升34.6%,相当于节省2170块GPU成本。该系统对在线服务质量影响极小(首token时间增加<5%,每token输出时间增加<2%),且部署成本极低(仅需1行GPU驱动修改+20行推理框架补丁)。
章节 02
大语言模型(LLM)推理服务支撑延迟敏感应用,但过度预配策略导致资源利用率低下,低谷时段GPU闲置浪费严重。在线-离线混部是解决方向,但生产部署面临双重挑战:
挑战一:在线干扰问题 离线任务抢占计算资源导致在线延迟增加,现有抢占机制存在延迟过高或频率过高缺陷。 挑战二:部署复杂性 需大量修改GPU驱动和推理框架,维护成本高且风险大。
章节 03
Valve设计哲学为“最小侵入性下最大化效益”,核心创新:
仅需1行GPU驱动修改+20行推理框架补丁,侵入性极低,易集成、维护成本低、风险可控。
章节 04
Valve在8054块GPU生产环境验证:
章节 05
Valve为LLM推理成本优化提供有效方案,2170块GPU节省体现可持续发展价值,未来将随LLM普及更重要。
章节 06