正文

SiDP：面向离线大模型推理的内存高效数据并行新范式

SiDP通过将模型权重视为带宽支撑的共享资源，在数据并行组内实现权重的分布式池化管理，支持Weight-as-a-Service和Compute-as-a-Service两种互补执行模式，在NVIDIA H20/H200/B200上实现KV缓存容量提升1.8倍、端到端吞吐提升1.5倍。

LLM推理数据并行显存优化离线推理KV缓存SiDPvLLM

发布时间 2026/05/27 15:52最近活动 2026/05/28 09:49预计阅读 3 分钟

章节 01

SiDP：面向离线大模型推理的内存高效数据并行新范式（导读）

SiDP是面向离线大模型推理的内存高效数据并行新范式，核心要点如下：

解决问题：离线推理场景中数据并行（DP）权重复制占用显存、模型并行（MP）同步侵蚀灵活性的矛盾
核心思想：将模型权重视为带宽支撑的共享资源，数据并行组内分布式池化管理
双模式执行：支持Weight-as-a-Service（WaS）和Compute-as-a-Service（CaS）动态切换
性能提升：NVIDIA H20/H200/B200上KV缓存容量提升1.8倍、端到端吞吐提升1.5倍

原文来源：arXiv 2026年5月27日，链接：http://arxiv.org/abs/2605.28095v1

章节 02

背景与挑战：离线LLM推理的显存与吞吐矛盾

随着大语言模型（LLM）广泛应用，推理工作负载向吞吐量优先的离线场景迁移，需较大批次规模。现有方案存在结构性矛盾：

数据并行（DP）：扩展吞吐量但每个GPU复制完整权重，显存留给KV缓存空间有限，限制批次大小
模型并行（MP）：减少单设备权重占用但需细粒度同步，侵蚀DP独立性与调度灵活性

这种张力导致离线推理难以兼顾高吞吐和显存效率

章节 03

SiDP核心思想：权重作为带宽支撑的共享资源

SiDP（Memory-Efficient Data Parallelism）核心思路：在数据并行组内，将模型权重视为带宽支撑的共享资源，而非每个GPU必须复制的私有数据。

具体架构：不再在每个GPU存储完整模型，将权重组织成分布式池——每个层由单个GPU拥有，其他副本按需访问。打破传统DP权重复制限制，释放大量显存用于KV缓存

章节 04

双模式执行：WaS与CaS动态适配负载

SiDP设计两种互补执行模式，根据实时批次大小动态切换：

Weight-as-a-Service（WaS）模式

大批次场景下，通过NVLink将远程权重流式传输到本地小型缓存，高带宽开销被计算掩盖，仅缓存当前计算层权重

Compute-as-a-Service（CaS）模式

小批次尾部场景，将激活值发送到拥有对应层权重的GPU计算，通信激活值而非权重更适合小负载

两种模式确保不同场景下最优性能

章节 05

实验验证：KV缓存与吞吐显著提升

研究团队在NVIDIA H20、H200、B200 GPU上测试Qwen3-32B、Qwen2.5-72B、Llama-3.1-70B模型，关键指标：

KV缓存容量：相同配置下提升1.8倍
端到端吞吐量：相比vLLM基线提升1.5倍

提升源于SiDP释放的显存空间，可容纳更长KV缓存，支持更大批次和序列

章节 06

技术意义：重新平衡显存与计算的新架构思路

SiDP的价值在于新系统架构思路：

权重不必处处复制：带宽充足环境（如NVLink）下，权重可按需获取
显存与计算重新平衡：减少权重冗余，将显存分配给KV缓存
灵活双模式设计：根据负载动态选择最优策略

对超大模型离线推理重要，打破显存对批次规模的限制

章节 07

总结：SiDP为离线推理提供新范式

SiDP通过权重共享、分布式池化管理及双模式执行，在不牺牲DP灵活性前提下，显著提升显存利用率和系统吞吐量。随着模型规模增长，这种以带宽换显存的设计可能成为大规模推理系统的重要演进方向

SiDP：面向离线大模型推理的内存高效数据并行新范式

SiDP：面向离线大模型推理的内存高效数据并行新范式（导读）

背景与挑战：离线LLM推理的显存与吞吐矛盾

SiDP核心思想：权重作为带宽支撑的共享资源

双模式执行：WaS与CaS动态适配负载

Weight-as-a-Service（WaS）模式

Compute-as-a-Service（CaS）模式

实验验证：KV缓存与吞吐显著提升

技术意义：重新平衡显存与计算的新架构思路

总结：SiDP为离线推理提供新范式

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统