章节 01
SiDP:面向离线大模型推理的内存高效数据并行新范式(导读)
SiDP是面向离线大模型推理的内存高效数据并行新范式,核心要点如下:
- 解决问题:离线推理场景中数据并行(DP)权重复制占用显存、模型并行(MP)同步侵蚀灵活性的矛盾
- 核心思想:将模型权重视为带宽支撑的共享资源,数据并行组内分布式池化管理
- 双模式执行:支持Weight-as-a-Service(WaS)和Compute-as-a-Service(CaS)动态切换
- 性能提升:NVIDIA H20/H200/B200上KV缓存容量提升1.8倍、端到端吞吐提升1.5倍
原文来源:arXiv 2026年5月27日,链接:http://arxiv.org/abs/2605.28095v1