# 从零手写大模型：一份包含23个Jupyter Notebook的完整实战教程

> walkinglabs/modern-llm-notebook 是一份系统性的现代大语言模型学习资源，通过23个独立的Jupyter Notebook，带领学习者从零开始用PyTorch实现LLM的核心组件，涵盖Tokenizer、Attention机制、MoE、RLHF、推理加速等全栈技术。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-21T06:15:12.000Z
- 最近活动: 2026-05-21T06:18:30.321Z
- 热度: 145.9
- 关键词: LLM, 大语言模型, PyTorch, Transformer, BPE, Attention, MoE, RLHF, 推理加速, 教程
- 页面链接: https://www.zingnex.cn/forum/thread/23jupyter-notebook
- Canonical: https://www.zingnex.cn/forum/thread/23jupyter-notebook
- Markdown 来源: ingested_event

---

在AI领域，调用现成的GPT API和真正理解模型内部机制之间存在巨大鸿沟。GitHub上最近出现的 **modern-llm-notebook** 项目，正是为填补这一鸿沟而生——它不是又一份教你如何调用API的教程，而是一份从零实现大模型核心组件的实战指南。

## 为什么这份教程与众不同

市面上关于大语言模型的教程大多停留在应用层面：如何写Prompt、如何调用API、如何构建RAG系统。这些知识固然重要，但对于想要深入理解模型本质的学习者来说远远不够。modern-llm-notebook的核心理念是**"手写核心算法"**——每个模块都遵循"直觉理解 → 手算验证 → 代码实现 → 实验观察"的教学循环。

项目的作者walkinglabs明确表示："这不是另一份『调用GPT API』的教程。你会亲手写出BPE Tokenizer、Multi-Head Attention、MoE Router、RLHF PPO、Speculative Decoding、VLM Cross-Attention。"这种从零构建的方法，让学习者不仅能知其然，更能知其所以然。

## 五大模块覆盖LLM全栈技术

整个教程被精心划分为五个部分，共23个独立的Jupyter Notebook，每个Notebook都是自包含的，可以按需跳转学习：

### 第一部分：基础架构（Part 1: Foundation）

从Tokenizer到Mini-GPT，理解GPT模型从输入文本到输出logits的完整数据流。这一部分包含5个Notebook：

- **Tokenizer基础**：从字符级和词级分词开始，理解为什么需要Tokenizer
- **BPE Tokenizer**：完整实现BPE的训练、编码、解码流程，可视化merge rules
- **Embedding与位置编码**：实现Token Embedding和正弦位置编码，用t-SNE可视化
- **Attention与Transformer Block**：从RNN的局限性出发，手写Multi-Head Attention和Transformer Block
- **Mini-GPT**：对照GPT-2和Karpathy的实现，组装一个完整的GPT骨架

### 第二部分：训练优化（Part 2: Training）

从架构优化到人类对齐，掌握完整的训练管线。这一部分包含9个Notebook：

- **架构改进**：实现LLaMA的RMSNorm、SwiGLU、RoPE、Pre-Norm等关键改进
- **混合专家模型（MoE）**：手写MoE路由机制、top-k选择、负载均衡
- **BERT编码器**：实现Encoder-only架构、双向注意力、MLM训练
- **训练与损失**：完整的训练循环、loss曲线分析、梯度累积
- **Scaling Laws**：从Kaplan到Chinchilla，理解计算最优训练和数据最优扩展
- **数据工程**：HTML清洗、质量过滤、MinHash去重、数据混合策略
- **LoRA**：低秩适应的A*B分解实现，merge推理优化
- **持续预训练（CPT）**：领域适配、数据混合、loss观察
- **RLHF对齐**：Reward Model、PPO Clip、DPO的完整实现

### 第三部分：推理加速（Part 3: Inference）

掌握LLM推理加速的核心技术，包含3个Notebook：

- **生成策略**：Greedy、Temperature、Top-K、Top-P、Beam Search的完整实现
- **推理加速**：KV Cache、FlashAttention、vLLM/PagedAttention手写代码
- **投机解码（Speculative Decoding）**：Draft Model到Target Model的验证机制

### 第四部分：前沿方向（Part 4: Frontiers）

覆盖2024-2025年LLM的最新进展：

- **长上下文**：RoPE频率分析、PI、NTK、YaRN外推方法
- **思维链（CoT）与思考模型**：Chain-of-Thought、Self-Consistency、RL奖励函数
- **视觉语言模型（VLM）**：Patch Embedding、Cross-Attention、Flamingo门控机制

### 第五部分：生产部署（Part 5: Production）

评测、压缩、部署，把模型推向生产环境：

- **评测方法**：lm-eval、LLM-as-Judge、5种复合评分方法
- **知识蒸馏**：Logit蒸馏、数据蒸馏、特征蒸馏
- **在线策略蒸馏（On-Policy Distillation）**：Exposure Bias、Forward/Reverse KL、k1/k2/k3估计器

## 手算验证：真正理解每一步

这份教程最具特色的地方在于"手算验证"环节。每个核心算法先用具体数字手动计算一遍，确保理解每一步的数学含义，再用代码实现。例如，在MoE（混合专家模型）的Notebook中，作者展示了这样一个例子：

```
输入 x = [1.0, 0.5]
Router权重 = [[0.8, 0.2], [0.3, 0.7]]
Gate logits = x @ Router = [0.9, 1.7]
Top-2 mask -> Expert 0和Expert 1被激活
```

这种从具体数值出发的讲解方式，让学习者真正理解Router到底做了什么，而不只是调了个API。

## 对应真实模型与顶会论文

教程中的实现直接对应以下真实模型的设计决策和顶会论文的核心算法：

| 模型/论文 | 关联技术 | Notebook |
|---------|---------|----------|
| GPT-4 / GPT-4o | Decoder-only, RLHF, Speculative Decoding | 04, 12, 15 |
| LLaMA 3 | RMSNorm, SwiGLU, RoPE, Pre-Norm | 05 |
| Mixtral | Sparse MoE, Top-2 Routing | 06 |
| DeepSeek-V3 / R1 | MoE, Multi-Head Latent Attention, Thinking Models | 06, 17 |
| Qwen2.5 | GQA, Long Context (YaRN), Data Pipeline | 10, 16 |
| Gemini | VLM, Multi-modal fusion | 18 |
| Claude | RLHF, Constitutional AI, Thinking | 12, 17 |
| Phi-3 | Data Quality, Distillation | 10, 20 |

涵盖的论文包括Attention Is All You Need、BERT、LLaMA、Scaling Laws、Chinchilla、LoRA、RLHF/PPO、DPO、FlashAttention、vLLM、Speculative Decoding、RoPE、YaRN、Chain-of-Thought、DeepSeek-R1、Flamingo、LLaVA等20余篇经典和最新论文。

## 技术实现细节

所有实现仅依赖PyTorch（torch.nn + torch.nn.functional），不使用transformers等封装库。这种"裸写"的方式虽然增加了学习曲线，但能让学习者看到每一层计算的本来面目。

项目要求Python 3.9+、PyTorch 2.0+、16GB RAM。大部分Notebook在CPU上即可运行，部分训练章节建议使用GPU。此外，项目还提供了一个基于React和Vite的网页端阅读器，可以将Notebook转换为更美观的网页界面。

## 适合谁学习

这份教程适合以下人群：

- **有一定PyTorch基础的开发者**：想要深入理解大模型内部机制，而不只是调用API
- **AI研究人员**：需要快速上手某个特定技术（如MoE、RLHF、VLM）的底层实现
- **算法工程师**：想要理解生产环境中各种优化技术（FlashAttention、vLLM、投机解码）的原理
- **技术管理者**：希望系统性地了解LLM技术栈，以便更好地评估技术方案和团队能力

## 学习建议

由于每个Notebook都是自包含的，学习者可以根据自己的需求选择性学习。建议的学习路径：

1. **快速入门**：Part 1的5个Notebook，建立对Transformer架构的完整理解
2. **训练方向**：Part 2的架构改进、MoE、RLHF相关Notebook
3. **推理优化**：Part 3的全部Notebook，理解生产环境的加速技术
4. **前沿探索**：Part 4和Part 5，了解最新进展和生产部署方法

## 结语

modern-llm-notebook填补了LLM教育领域的一个重要空白——它既不是过于理论的学术论文合集，也不是过于浅显的API调用教程，而是一份真正让学习者"动手写"的实践指南。在这个AI技术快速迭代的时代，能够从零手写核心算法的能力，将成为区分普通使用者和真正专家的试金石。

如果你已经厌倦了"调包"式的学习，想要真正理解大模型是如何工作的，这份23个Notebook的教程或许正是你需要的。