Zing 论坛

正文

SiDP:面向离线大模型推理的内存高效数据并行新范式

SiDP通过将模型权重视为带宽支撑的共享资源,在数据并行组内实现权重的分布式池化管理,支持Weight-as-a-Service和Compute-as-a-Service两种互补执行模式,在NVIDIA H20/H200/B200上实现KV缓存容量提升1.8倍、端到端吞吐提升1.5倍。

LLM推理数据并行显存优化离线推理KV缓存SiDPvLLM
发布时间 2026/05/27 15:52最近活动 2026/05/28 09:49预计阅读 3 分钟
SiDP:面向离线大模型推理的内存高效数据并行新范式
1

章节 01

SiDP:面向离线大模型推理的内存高效数据并行新范式(导读)

SiDP是面向离线大模型推理的内存高效数据并行新范式,核心要点如下:

  • 解决问题:离线推理场景中数据并行(DP)权重复制占用显存、模型并行(MP)同步侵蚀灵活性的矛盾
  • 核心思想:将模型权重视为带宽支撑的共享资源,数据并行组内分布式池化管理
  • 双模式执行:支持Weight-as-a-Service(WaS)和Compute-as-a-Service(CaS)动态切换
  • 性能提升:NVIDIA H20/H200/B200上KV缓存容量提升1.8倍、端到端吞吐提升1.5倍

原文来源:arXiv 2026年5月27日,链接:http://arxiv.org/abs/2605.28095v1

2

章节 02

背景与挑战:离线LLM推理的显存与吞吐矛盾

随着大语言模型(LLM)广泛应用,推理工作负载向吞吐量优先的离线场景迁移,需较大批次规模。现有方案存在结构性矛盾:

  • 数据并行(DP):扩展吞吐量但每个GPU复制完整权重,显存留给KV缓存空间有限,限制批次大小
  • 模型并行(MP):减少单设备权重占用但需细粒度同步,侵蚀DP独立性与调度灵活性

这种张力导致离线推理难以兼顾高吞吐和显存效率

3

章节 03

SiDP核心思想:权重作为带宽支撑的共享资源

SiDP(Memory-Efficient Data Parallelism)核心思路:在数据并行组内,将模型权重视为带宽支撑的共享资源,而非每个GPU必须复制的私有数据。

具体架构:不再在每个GPU存储完整模型,将权重组织成分布式池——每个层由单个GPU拥有,其他副本按需访问。打破传统DP权重复制限制,释放大量显存用于KV缓存

4

章节 04

双模式执行:WaS与CaS动态适配负载

SiDP设计两种互补执行模式,根据实时批次大小动态切换:

Weight-as-a-Service(WaS)模式

大批次场景下,通过NVLink将远程权重流式传输到本地小型缓存,高带宽开销被计算掩盖,仅缓存当前计算层权重

Compute-as-a-Service(CaS)模式

小批次尾部场景,将激活值发送到拥有对应层权重的GPU计算,通信激活值而非权重更适合小负载

两种模式确保不同场景下最优性能

5

章节 05

实验验证:KV缓存与吞吐显著提升

研究团队在NVIDIA H20、H200、B200 GPU上测试Qwen3-32B、Qwen2.5-72B、Llama-3.1-70B模型,关键指标:

  • KV缓存容量:相同配置下提升1.8倍
  • 端到端吞吐量:相比vLLM基线提升1.5倍

提升源于SiDP释放的显存空间,可容纳更长KV缓存,支持更大批次和序列

6

章节 06

技术意义:重新平衡显存与计算的新架构思路

SiDP的价值在于新系统架构思路:

  1. 权重不必处处复制:带宽充足环境(如NVLink)下,权重可按需获取
  2. 显存与计算重新平衡:减少权重冗余,将显存分配给KV缓存
  3. 灵活双模式设计:根据负载动态选择最优策略

对超大模型离线推理重要,打破显存对批次规模的限制

7

章节 07

总结:SiDP为离线推理提供新范式

SiDP通过权重共享、分布式池化管理及双模式执行,在不牺牲DP灵活性前提下,显著提升显存利用率和系统吞吐量。随着模型规模增长,这种以带宽换显存的设计可能成为大规模推理系统的重要演进方向