正文

从零手写大模型：一份包含23个Jupyter Notebook的完整实战教程

walkinglabs/modern-llm-notebook 是一份系统性的现代大语言模型学习资源，通过23个独立的Jupyter Notebook，带领学习者从零开始用PyTorch实现LLM的核心组件，涵盖Tokenizer、Attention机制、MoE、RLHF、推理加速等全栈技术。

LLM大语言模型PyTorchTransformerBPEAttentionMoERLHF推理加速教程

发布时间 2026/05/21 14:15最近活动 2026/05/21 14:18预计阅读 2 分钟

章节 01

导读：从零手写大模型的完整实战教程

GitHub项目walkinglabs/modern-llm-notebook是一份系统性LLM学习资源，通过23个独立Jupyter Notebook带领学习者从零用PyTorch实现LLM核心组件（Tokenizer、Attention、MoE、RLHF、推理加速等），填补调用API与理解模型内部机制的鸿沟，遵循"直觉理解→手算验证→代码实现→实验观察"的教学循环。

章节 02

项目背景：填补LLM学习的应用与原理鸿沟

市面上LLM教程多停留在应用层面（写Prompt、调用API、构建RAG），缺乏对模型本质的深入理解。该项目核心理念为"手写核心算法"，让学习者不仅知其然，更知其所以然。

章节 03

教程结构：五大模块覆盖LLM全栈技术

教程分5部分共23个Notebook： 1.基础架构：Tokenizer、BPE、Embedding、Attention、Mini-GPT 2.训练优化：架构改进（LLaMA关键改进）、MoE、BERT、训练循环、Scaling Laws、数据工程、LoRA、CPT、RLHF 3.推理加速：生成策略、KV Cache/FlashAttention、投机解码 4.前沿方向：长上下文、CoT、VLM 5.生产部署：评测、知识蒸馏、在线策略蒸馏每个Notebook自包含，可按需跳转学习。

章节 04

核心特色：手算验证与真实模型/论文对应

1.手算验证：核心算法先手动计算（如MoE Router示例）确保理解数学含义； 2.对应真实模型与论文：覆盖GPT-4、LLaMA3、Mixtral等模型及20余篇经典/最新论文； 3.技术细节：仅依赖PyTorch（无transformers等封装库），环境要求Python3.9+、PyTorch2.0+、16GB RAM，部分章节需GPU，提供网页阅读器。

章节 05