Zing 论坛

正文

从零构建推理模型:O'Reilly 课程带你深入理解 o1、DeepSeek R1 和 Gemini 2.0 的推理机制

这是一套完整的 O'Reilly 实战课程资料,通过从零构建 DeepSeek R1 风格的推理模型训练流程,帮助学习者深入理解现代推理模型的工作原理,包括思维链(CoT)、GRPO 强化学习等核心技术。

推理模型DeepSeek R1思维链GRPO强化学习O'Reilly课程AI训练大语言模型
发布时间 2026/04/07 20:06最近活动 2026/04/07 20:19预计阅读 2 分钟
从零构建推理模型:O'Reilly 课程带你深入理解 o1、DeepSeek R1 和 Gemini 2.0 的推理机制
1

章节 01

导读:O'Reilly课程带你从零构建推理模型,深入理解核心机制

O'Reilly推出的这门实战课程,通过从零构建DeepSeek R1风格的推理模型训练流程,帮助学习者深入理解现代推理模型(如o1、DeepSeek R1、Gemini 2.0)的工作原理,核心涵盖思维链(CoT)、GRPO强化学习等关键技术。课程注重实战,让学习者从理论到代码全面掌握推理模型的构建过程。

2

章节 02

背景:推理模型的兴起与思维链概念

随着OpenAI o系列、DeepSeek R1等推理模型的兴起,AI领域正从'快速回答'转向'深度思考'的范式转变。推理模型与传统大语言模型的区别在于,会生成中间思考步骤(思维链),这种能力需通过特定后训练技术获得。课程先帮助学习者建立对思维链的直觉理解,揭示其从提示技巧到内生能力的演变机制。

3

章节 03

核心方法:DeepSeek R1的五阶段训练流程

课程核心是DeepSeek R1论文提出的五阶段训练流程:

  1. 预训练:基础阶段,用自回归语言建模目标训练,决定模型语言理解上限;
  2. 冷启动监督微调(SFT):关键创新,用少量高质量推理示例微调,让模型学会结构化表达思考;
  3. GRPO强化学习:技术核心,无需价值网络,通过组内样本相对奖励估计优势函数,降低训练成本,课程提供完整PyTorch实现;
  4. 拒绝采样SFT:筛选高质量推理轨迹进行第二轮微调,提升质量;
  5. 蒸馏:将模型蒸馏到小模型,便于资源受限环境部署。
4

章节 04

动手实践:从notebook到演示应用

课程提供完整Jupyter Notebook系列(对应各训练阶段),含代码注释和可视化,支持分步跟随或跳转到任意阶段。配套演示应用包括:

  • 数学问题求解器:对比直接回答与思维链推理差异;
  • 逻辑谜题求解器:展示多步推理与假设检验;
  • 规划代理:演示任务规划中的子任务分解与执行计划生成。还提供模型选择决策树和对比工具。
5

章节 05

灵活使用:课程的三种学习方式

课程支持三种灵活使用方式:

  1. GitHub Codespaces(推荐):浏览器内完成环境配置,支持API密钥设置;
  2. 本地运行:用uv包管理器搭建环境(Python3.11+);
  3. 已有环境:直接克隆仓库运行notebook(需熟悉Jupyter和PyTorch)。
6

章节 06

课程价值:为什么值得关注?

在推理模型重要性日益凸显的今天,仅调用API已不足够。这门课程的独特之处在于带领学习者亲手构建推理模型,掌握GRPO、拒绝采样等技术细节,建立对推理模型本质的深刻理解。适合希望深入理解o1、DeepSeek R1等模型原理的开发者、研究人员和技术决策者。