正文

现代机器学习系统学习笔记：从PagedAttention到LLM推理优化

深入解读开源ML系统学习笔记仓库，涵盖PagedAttention、vLLM多卡并行、扩散模型加速、ORCA调度等前沿技术的原理分析与实现细节。

机器学习系统LLM推理PagedAttentionvLLM张量并行扩散模型ORCASarathi推理优化内存管理

发布时间 2026/05/21 11:45最近活动 2026/05/21 11:56预计阅读 3 分钟

章节 01

现代机器学习系统学习笔记导读

随着大语言模型(LLM)快速发展，机器学习已从算法研究演变为复杂系统工程，推理效率、部署架构、内存管理等系统问题决定AI产品落地。本文介绍的开源学习笔记仓库，通过论文阅读、源码分析和实验，梳理了从底层优化到上层架构的知识体系，涵盖PagedAttention、vLLM多卡并行、扩散模型加速、ORCA调度、Sarathi-Serve等前沿技术，为ML系统工程师和研究者提供宝贵参考。

章节 02

ML系统工程的背景与挑战

ML系统面临的核心挑战包括：1. KV Cache预分配策略导致内存浪费和碎片化（长上下文模型即使实际生成长度短也需预留大量连续内存）；2. 传统请求级批处理因序列长度差异产生严重尾部延迟；3. Prefill与Decode阶段计算特性差异导致资源利用不均衡；4. 超大规模模型参数超过单卡显存容量需并行扩展。

章节 03

核心技术方法解析

PagedAttention

将虚拟内存管理思想引入LLM推理，把KV Cache划分为固定大小页，按需分配、非连续存储、页共享（copy-on-write）、内存池复用。

vLLM多卡并行

张量并行：切分注意力头、FFN层，通过All-Reduce聚合结果；
流水线并行：按层切分模型，用微批次流水线和交错调度隐藏延迟。

扩散模型加速

激活缓存：缓存相邻迭代变化小的层输出；
步数优化：DDIM（1000→50步）、DPM-Solver、一致性模型。

ORCA调度

迭代级调度（每生成迭代后重组批次）+选择性批处理，优化GPU利用率。

Sarathi-Serve

Chunked-Prefill：拆分长prompt为多个chunk，与Decode请求交错执行。

章节 04

技术效果与证据

PagedAttention：内存利用率从20-40%提升到80%+，批处理能力增强，吞吐量提升，长尾延迟降低；
vLLM多卡并行：支持超大规模模型切分与扩展；
扩散模型加速：通过缓存和步数优化显著减少生成时间；
ORCA：解决传统批处理尾部延迟问题，新请求可立即加入下一轮迭代；
Sarathi-Serve：平衡Prefill与Decode资源利用，避免长prompt阻塞短请求。

章节 05

优化原则与未来展望

核心优化原则

内存是瓶颈：优化围绕减少内存访问；
批处理是关键：智能批处理充分利用GPU并行能力；
延迟与吞吐权衡：不同场景目标不同；
软硬件协同：结合硬件特性（Tensor Core、HBM）设计软件。

未来方向

投机解码、量化压缩（INT8/INT4）、多模态推理、边缘部署（轻量化）。

章节 06

学习路径与实践建议

学习顺序

基础：Transformer架构与注意力机制；
优化：PagedAttention内存管理；
并行：张量并行与流水线并行实现；
调度：ORCA与Sarathi策略；
系统：设计完整推理服务架构。

动手实践

复现性能测试建立直觉；
修改参数（页大小、chunk大小）观察影响；
在实际模型验证理论；
参与开源社区贡献改进。