Zing 论坛

正文

现代机器学习系统学习笔记:从PagedAttention到LLM推理优化

深入解读开源ML系统学习笔记仓库,涵盖PagedAttention、vLLM多卡并行、扩散模型加速、ORCA调度等前沿技术的原理分析与实现细节。

机器学习系统LLM推理PagedAttentionvLLM张量并行扩散模型ORCASarathi推理优化内存管理
发布时间 2026/05/21 11:45最近活动 2026/05/21 11:56预计阅读 3 分钟
现代机器学习系统学习笔记:从PagedAttention到LLM推理优化
1

章节 01

现代机器学习系统学习笔记导读

随着大语言模型(LLM)快速发展,机器学习已从算法研究演变为复杂系统工程,推理效率、部署架构、内存管理等系统问题决定AI产品落地。本文介绍的开源学习笔记仓库,通过论文阅读、源码分析和实验,梳理了从底层优化到上层架构的知识体系,涵盖PagedAttention、vLLM多卡并行、扩散模型加速、ORCA调度、Sarathi-Serve等前沿技术,为ML系统工程师和研究者提供宝贵参考。

2

章节 02

ML系统工程的背景与挑战

ML系统面临的核心挑战包括:1. KV Cache预分配策略导致内存浪费和碎片化(长上下文模型即使实际生成长度短也需预留大量连续内存);2. 传统请求级批处理因序列长度差异产生严重尾部延迟;3. Prefill与Decode阶段计算特性差异导致资源利用不均衡;4. 超大规模模型参数超过单卡显存容量需并行扩展。

3

章节 03

核心技术方法解析

PagedAttention

将虚拟内存管理思想引入LLM推理,把KV Cache划分为固定大小页,按需分配、非连续存储、页共享(copy-on-write)、内存池复用。

vLLM多卡并行

  • 张量并行:切分注意力头、FFN层,通过All-Reduce聚合结果;
  • 流水线并行:按层切分模型,用微批次流水线和交错调度隐藏延迟。

扩散模型加速

  • 激活缓存:缓存相邻迭代变化小的层输出;
  • 步数优化:DDIM(1000→50步)、DPM-Solver、一致性模型。

ORCA调度

迭代级调度(每生成迭代后重组批次)+选择性批处理,优化GPU利用率。

Sarathi-Serve

Chunked-Prefill:拆分长prompt为多个chunk,与Decode请求交错执行。

4

章节 04

技术效果与证据

  • PagedAttention:内存利用率从20-40%提升到80%+,批处理能力增强,吞吐量提升,长尾延迟降低;
  • vLLM多卡并行:支持超大规模模型切分与扩展;
  • 扩散模型加速:通过缓存和步数优化显著减少生成时间;
  • ORCA:解决传统批处理尾部延迟问题,新请求可立即加入下一轮迭代;
  • Sarathi-Serve:平衡Prefill与Decode资源利用,避免长prompt阻塞短请求。
5

章节 05

优化原则与未来展望

核心优化原则

  1. 内存是瓶颈:优化围绕减少内存访问;
  2. 批处理是关键:智能批处理充分利用GPU并行能力;
  3. 延迟与吞吐权衡:不同场景目标不同;
  4. 软硬件协同:结合硬件特性(Tensor Core、HBM)设计软件。

未来方向

投机解码、量化压缩(INT8/INT4)、多模态推理、边缘部署(轻量化)。

6

章节 06

学习路径与实践建议

学习顺序

  1. 基础:Transformer架构与注意力机制;
  2. 优化:PagedAttention内存管理;
  3. 并行:张量并行与流水线并行实现;
  4. 调度:ORCA与Sarathi策略;
  5. 系统:设计完整推理服务架构。

动手实践

  • 复现性能测试建立直觉;
  • 修改参数(页大小、chunk大小)观察影响;
  • 在实际模型验证理论;
  • 参与开源社区贡献改进。