Zing 论坛

正文

Valve:生产级在线-离线推理混部系统,节省2170块GPU

微软Valve系统在8054块GPU的生产环境中部署,通过亚毫秒级计算抢占和速率受限的内存回收,实现34.6%的集群利用率提升。

LLM推理GPU混部资源利用率生产部署Valve在线-离线成本优化
发布时间 2026/04/09 14:45最近活动 2026/04/10 12:47预计阅读 2 分钟
Valve:生产级在线-离线推理混部系统,节省2170块GPU
1

章节 01

【导读】Valve:生产级在线-离线推理混部系统节省2170块GPU

微软Valve系统在8054块GPU的生产环境中部署,通过亚毫秒级计算抢占、单次抢占保证、速率受限内存回收等核心技术,实现集群利用率提升34.6%,相当于节省2170块GPU成本。该系统对在线服务质量影响极小(首token时间增加<5%,每token输出时间增加<2%),且部署成本极低(仅需1行GPU驱动修改+20行推理框架补丁)。

2

章节 02

背景:大模型推理的资源困境与混部挑战

大模型推理的资源困境

大语言模型(LLM)推理服务支撑延迟敏感应用,但过度预配策略导致资源利用率低下,低谷时段GPU闲置浪费严重。在线-离线混部是解决方向,但生产部署面临双重挑战:

生产部署的双重挑战

挑战一:在线干扰问题 离线任务抢占计算资源导致在线延迟增加,现有抢占机制存在延迟过高或频率过高缺陷。 挑战二:部署复杂性 需大量修改GPU驱动和推理框架,维护成本高且风险大。

3

章节 03

Valve的核心方法与技术架构

Valve:实用至上的混部解决方案

Valve设计哲学为“最小侵入性下最大化效益”,核心创新:

  • 亚毫秒级计算抢占:在线请求到达时亚毫秒内暂停离线任务
  • 单次抢占保证:每个在线请求最多触发一次抢占,避免频繁切换
  • 速率受限内存回收:渐进式回收避免突发延迟

技术实现架构

  • 通道控制的计算隔离:硬件级隔离实现微秒级抢占
  • 无页错误内存回收:预分配池+增量策略降低开销
  • 动态内存预留:智能调整预留量平衡需求与浪费

极简的部署成本

仅需1行GPU驱动修改+20行推理框架补丁,侵入性极低,易集成、维护成本低、风险可控。

4

章节 04

生产验证:34.6%利用率提升与2170块GPU节省

Valve在8054块GPU生产环境验证:

  • 集群利用率提升34.6%,节省2170块GPU成本
  • 在线服务影响极小:TTFT增加<5%,TPOT增加<2%
  • 跨工作负载稳定:短/长文本任务、低/高峰时段均保持一致性能。
5

章节 05

结论与行业启示:混部可行性与工程实用主义

对行业的启示

  1. 生产环境高效混部可行,关键在于正确技术抽象(亚毫秒抢占等)
  2. 可部署性重要:极简修改策略平衡技术先进与工程实用
  3. 硬件-软件协同设计价值:深入GPU架构实现高性能

结语

Valve为LLM推理成本优化提供有效方案,2170块GPU节省体现可持续发展价值,未来将随LLM普及更重要。

6

章节 06

局限与未来方向:硬件适配与新兴场景优化

局限

  • 当前主要适配NVIDIA GPU,其他硬件(AMD、Intel加速器)需额外适配
  • 极端内存压力下可能影响在线任务

未来方向

  • 探索更智能的内存预测与预分配策略
  • 针对多模态模型、Agent系统的专门优化
  • 扩展至更多硬件平台