章节 01
导读:从零手写大模型的完整实战教程
GitHub项目walkinglabs/modern-llm-notebook是一份系统性LLM学习资源,通过23个独立Jupyter Notebook带领学习者从零用PyTorch实现LLM核心组件(Tokenizer、Attention、MoE、RLHF、推理加速等),填补调用API与理解模型内部机制的鸿沟,遵循"直觉理解→手算验证→代码实现→实验观察"的教学循环。
正文
walkinglabs/modern-llm-notebook 是一份系统性的现代大语言模型学习资源,通过23个独立的Jupyter Notebook,带领学习者从零开始用PyTorch实现LLM的核心组件,涵盖Tokenizer、Attention机制、MoE、RLHF、推理加速等全栈技术。
章节 01
GitHub项目walkinglabs/modern-llm-notebook是一份系统性LLM学习资源,通过23个独立Jupyter Notebook带领学习者从零用PyTorch实现LLM核心组件(Tokenizer、Attention、MoE、RLHF、推理加速等),填补调用API与理解模型内部机制的鸿沟,遵循"直觉理解→手算验证→代码实现→实验观察"的教学循环。
章节 02
市面上LLM教程多停留在应用层面(写Prompt、调用API、构建RAG),缺乏对模型本质的深入理解。该项目核心理念为"手写核心算法",让学习者不仅知其然,更知其所以然。
章节 03
教程分5部分共23个Notebook: 1.基础架构:Tokenizer、BPE、Embedding、Attention、Mini-GPT 2.训练优化:架构改进(LLaMA关键改进)、MoE、BERT、训练循环、Scaling Laws、数据工程、LoRA、CPT、RLHF 3.推理加速:生成策略、KV Cache/FlashAttention、投机解码 4.前沿方向:长上下文、CoT、VLM 5.生产部署:评测、知识蒸馏、在线策略蒸馏 每个Notebook自包含,可按需跳转学习。
章节 04
1.手算验证:核心算法先手动计算(如MoE Router示例)确保理解数学含义; 2.对应真实模型与论文:覆盖GPT-4、LLaMA3、Mixtral等模型及20余篇经典/最新论文; 3.技术细节:仅依赖PyTorch(无transformers等封装库),环境要求Python3.9+、PyTorch2.0+、16GB RAM,部分章节需GPU,提供网页阅读器。
章节 05
适用人群:有PyTorch基础的开发者、AI研究员、算法工程师、技术管理者; 学习路径:快速入门(Part1)→训练方向(Part2相关Notebook)→推理优化(Part3)→前沿探索(Part4-5)。
章节 06
该项目填补LLM教育空白,既非纯理论论文合集也非浅API教程,是动手实践指南。在AI快速迭代时代,从零手写核心算法的能力是区分普通使用者与专家的试金石,适合想深入理解LLM工作原理的学习者。