# LLM推理中的填充令牌开销：张量与流水线并行配置下的效率研究

> 一项针对大语言模型推理过程中填充令牌（padding tokens）对计算效率影响的系统性基准测试研究，基于Qwen2.5-32B模型在A100 GPU集群上的实测数据，揭示了不同并行策略下的性能差异与优化方向。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-02T15:41:37.000Z
- 最近活动: 2026-05-02T15:49:32.890Z
- 热度: 141.9
- 关键词: LLM推理, 填充令牌, 张量并行, 流水线并行, Qwen2.5, A100, 批处理优化, 推理效率
- 页面链接: https://www.zingnex.cn/forum/thread/llm-0370d791
- Canonical: https://www.zingnex.cn/forum/thread/llm-0370d791
- Markdown 来源: ingested_event

---

## 研究背景与动机

在大语言模型（LLM）的实际部署场景中，批处理（batching）是提升GPU利用率和吞吐量的关键手段。然而，由于输入序列长度的不一致性，批处理往往需要引入填充令牌（padding tokens）来统一序列长度。这些填充令牌虽然不参与实际的语义计算，却同样会消耗显存和计算资源，成为推理效率的隐形杀手。

当前主流的大模型推理框架如vLLM、TensorRT-LLM等都在尝试通过分页注意力（PagedAttention）或动态批处理等技术来缓解这一问题，但关于填充令牌在不同并行配置下的具体开销，业界仍缺乏系统性的量化研究。这正是本项目的研究价值所在。

## 实验设计与方法论

本项目由divide-by-zer0团队开源发布，采用Qwen2.5-32B作为测试模型，在NVIDIA A100 GPU集群上进行了全面的基准测试。实验设计涵盖了两种主要的分布式并行策略：

- **张量并行（Tensor Parallelism, TP）**：将单个层的计算拆分到多个GPU上，适用于单节点多卡场景
- **流水线并行（Pipeline Parallelism, PP）**：将模型按层划分为多个阶段，每个阶段部署在不同的GPU上，适用于跨节点大规模部署

研究团队通过控制变量法，系统性地测试了不同批处理大小、不同序列长度配置以及不同并行度组合下，填充令牌对端到端推理延迟和吞吐量的影响。

## 核心发现与数据分析

实验结果揭示了几个关键洞察：

首先，在张量并行配置下，填充令牌的开销与并行度呈非线性关系。当TP维度增加时，虽然单卡计算压力降低，但填充令牌导致的跨卡通信开销会显著放大。特别是在序列长度差异较大的批次中，这种开销可能抵消张量并行带来的收益。

其次，流水线并行在处理变长序列时表现出独特的优势。由于PP将模型分层切分，填充令牌仅影响其所在阶段的计算，而不会产生跨层传播的开销。这一特性使得PP在处理动态批处理时具有更好的鲁棒性。

此外，研究还发现填充令牌对显存占用的影响往往被低估。在32B参数规模的模型上，即使只有10%的填充比例，也可能导致数GB的显存浪费，这在长序列场景（如文档理解、代码生成）中尤为突出。

## 工程实践启示

基于上述发现，研究团队提出了一系列工程优化建议：

1. **智能批处理策略**：根据输入序列长度的分布动态选择批处理大小，避免过度填充
2. **混合并行配置**：在节点内使用张量并行，跨节点使用流水线并行，以平衡计算效率与通信开销
3. **填充感知调度**：在请求调度层引入填充成本预估，优先组合长度相近的请求
4. **序列打包技术**：借鉴计算机视觉中的图像打包思想，探索非连续内存布局的注意力计算方案

## 对行业的影响与展望

这项研究的意义不仅在于量化了填充令牌的开销，更重要的是为LLM推理系统的架构设计提供了数据驱动的决策依据。随着MoE（混合专家）模型和多模态大模型的普及，模型规模和序列长度都在快速增长，填充开销问题将变得更加严峻。

未来，我们期待看到更多针对这一问题的创新解决方案，例如：

- 硬件层面的稀疏注意力加速
- 算法层面的动态序列重组
- 系统层面的请求预测与预填充

开源社区已经在这个方向上展现出强大的创新活力，而divide-by-zer0团队的这项工作无疑为后续研究奠定了坚实的基础。
