# tiny-llm：一周掌握 LLM 推理服务的系统工程师课程

> tiny-llm 是一个面向系统工程师的 LLM 推理服务课程，使用 MLX 框架在 Apple Silicon 上从零构建类似 vLLM 的推理系统。课程涵盖注意力机制、KV 缓存、连续批处理、Flash Attention 等核心概念，全部基于底层数组 API 实现。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-26T21:40:29.000Z
- 最近活动: 2026-05-26T21:50:53.769Z
- 热度: 141.8
- 关键词: LLM, MLX, Apple Silicon, 推理优化, vLLM, Flash Attention, KV缓存, 教育课程
- 页面链接: https://www.zingnex.cn/forum/thread/tiny-llm-llm-ede00dc0
- Canonical: https://www.zingnex.cn/forum/thread/tiny-llm-llm-ede00dc0
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：skyzh
- 来源平台：GitHub
- 原始标题：tiny-llm - A course of learning LLM inference serving on Apple Silicon for systems engineers
- 原始链接：https://github.com/skyzh/tiny-llm
- 来源发布时间/更新时间：2026-05-26

## 课程定位与设计理念

在大型语言模型技术快速发展的今天，理解其底层推理机制对于系统工程师越来越重要。然而，大多数现有资源要么过于高层抽象，要么需要昂贵的 NVIDIA GPU 环境。tiny-llm 课程正是为解决这一痛点而设计。

该课程的独特之处在于完全基于 MLX 的数组/矩阵 API 实现，不使用任何高层神经网络 API。这种设计让学习者能够从零开始构建模型服务基础设施，深入理解每一个优化细节。课程目标是在 Apple Silicon 上高效部署类似 Qwen3 这样的大语言模型。

选择 MLX 的原因很实际：如今获取 macOS 开发环境比配置 NVIDIA GPU 要容易得多。而选择 Qwen3 作为目标模型，则是因为它在保持稠密解码器架构足够小巧的同时，加入了现代细节如 QK norm 和 bfloat16 权重，且官方提供的 MLX 4-bit 模型文件让 Apple Silicon 上的设置变得可预测。

## 三周学习路线图

课程内容分为三周，循序渐进地构建完整的推理系统。

### 第一周：模型基础组件

第一周专注于实现使用 Qwen3 模型生成回复所需的核心组件，全部使用 Python 实现。涵盖的主题包括：

- **注意力机制（1.1）**：理解 Transformer 架构的核心——自注意力计算
- **RoPE（1.2）**：旋转位置编码的实现，现代 LLM 的关键技术
- **分组查询注意力（1.3）**：GQA 机制如何平衡性能和效率
- **RMSNorm 和 MLP（1.4）**：归一化层和前馈网络
- **模型加载（1.5）**：从权重文件加载模型参数
- **生成回复（1.6）**：解码算法的实现
- **采样策略（1.7）**：温度采样、top-k、top-p 等策略

### 第二周：推理系统优化

第二周进入推理系统的核心优化技术，构建一个简化版的 vLLM：

- **KV 缓存（2.1）**：避免重复计算已生成的键值对
- **量化矩阵乘法（2.2-2.3）**：分别在 CPU 和 GPU 上实现量化加速
- **Flash Attention 2（2.4-2.5）**：内存高效的注意力算法，在 CPU 和 GPU 上的实现
- **连续批处理（2.6）**：动态批处理提升吞吐量
- **分块预填充（2.7）**：优化长提示的处理效率

### 第三周：高级主题（进行中）

第三周涵盖更高级的主题和模型与外部世界的交互：

- **Paged Attention（3.1-3.2）**：更高效的内存管理
- **MoE 混合专家模型（3.3）**：稀疏激活的大模型架构
- **推测解码（3.4）**：通过草稿模型加速生成
- **RAG 流水线（3.5）**：检索增强生成
- **AI Agent / 工具调用（3.6）**：让模型与外部工具交互
- **长上下文处理（3.7）**：扩展模型的上下文窗口

## 教学资源与社区

课程提供了完整的在线教材，托管在 GitHub Pages 上，学习者可以跟随指南逐步构建。此外还有一个 Discord 社区供学习者交流讨论。

每个章节都包含完整的代码实现、测试用例和文档，确保学习者能够验证自己的实现是否正确。目前已完成第一周和第二周的全部内容，第三周正在积极开发中。

## 技术亮点

### 纯底层实现

与使用 PyTorch 或 TensorFlow 等高层框架不同，tiny-llm 直接使用 MLX 的数组操作 API。这让学习者能够看到每一个矩阵乘法的细节，理解内存布局对性能的影响，以及量化是如何在底层工作的。

### 跨平台优化

课程同时覆盖 CPU 和 GPU 实现，让学习者理解不同硬件架构下的优化策略差异。这对于系统工程师设计部署方案时做出明智决策非常有帮助。

### 生产级技术

课程涵盖的技术都是生产环境中实际使用的：Flash Attention 已成为标准配置，KV 缓存是推理优化的基础，连续批处理是提升吞吐量的关键。学习这些技术能够直接应用到实际工作中。

## 适用人群

这个课程特别适合以下人群：

- **系统工程师**：希望深入理解 LLM 推理机制，优化部署方案
- **算法工程师**：想要了解底层实现细节，而不仅是调用高层 API
- **研究人员**：需要定制推理流程或进行模型分析
- **学生**：希望系统学习 LLM 技术，从基础到高级

## 学习建议

由于课程使用 Apple Silicon 和 MLX，建议学习者具备：

- 基础的 Python 编程能力
- 线性代数和微积分基础
- 对 Transformer 架构有初步了解
- 一台搭载 Apple Silicon 的 Mac（M1 及以上）

课程文档详细且循序渐进，即使没有深度学习框架经验也能跟上。关键是动手实现每个组件，通过测试验证正确性。

## 结语

tiny-llm 填补了 LLM 教育资源的空白：它足够底层以展示真实的工作原理，又足够实用以应用于生产环境。对于希望真正理解大语言模型推理而不仅是调用 API 的系统工程师来说，这是一个难得的学习机会。随着第三周内容的完善，这个课程将成为 LLM 系统教育的完整参考。