正文

tiny-llm：一周掌握 LLM 推理服务的系统工程师课程

tiny-llm 是一个面向系统工程师的 LLM 推理服务课程，使用 MLX 框架在 Apple Silicon 上从零构建类似 vLLM 的推理系统。课程涵盖注意力机制、KV 缓存、连续批处理、Flash Attention 等核心概念，全部基于底层数组 API 实现。

LLMMLXApple Silicon推理优化vLLMFlash AttentionKV缓存教育课程

发布时间 2026/05/27 05:40最近活动 2026/05/27 05:50预计阅读 2 分钟

章节 01

tiny-llm课程导读：面向系统工程师的LLM推理服务实战课程

tiny-llm是面向系统工程师的LLM推理服务课程，旨在通过MLX框架在Apple Silicon上从零构建类似vLLM的推理系统。课程涵盖注意力机制、KV缓存、连续批处理、Flash Attention等核心概念，全部基于底层数组API实现，帮助学习者掌握LLM推理服务的关键技术。

章节 02

课程背景与设计理念

现有LLM资源存在过于高层抽象或依赖昂贵NVIDIA GPU的痛点。tiny-llm课程通过纯MLX数组/矩阵API实现，避免高层神经网络API，让学习者深入理解优化细节。选择MLX因Mac环境易获取，选择Qwen3作为目标模型因其小巧且含现代细节（如QK norm、bfloat16权重），官方提供MLX 4-bit模型文件便于Apple Silicon部署。

章节 03

三周学习路线图：从基础到高级推理系统

第一周：模型基础组件

实现Qwen3生成所需核心组件（注意力、RoPE、GQA、RMSNorm、模型加载、生成回复、采样策略等）。

第二周：推理系统优化

构建简化版vLLM，涵盖KV缓存、量化矩阵乘法（CPU/GPU）、Flash Attention 2（CPU/GPU）、连续批处理、分块预填充等。

第三周：高级主题（进行中）

包括Paged Attention、MoE混合专家模型、推测解码、RAG流水线、AI Agent/工具调用、长上下文处理等。

章节 04

课程技术亮点：底层实现与生产级优化

纯底层实现：直接使用MLX数组操作API，展示矩阵乘法细节、内存布局影响及量化底层工作原理。
跨平台优化：覆盖CPU和GPU实现，帮助理解不同硬件的优化策略差异。
生产级技术：涵盖Flash Attention、KV缓存、连续批处理等实际生产环境中使用的关键技术。

章节 05

适用人群与学习建议

适用人群

系统工程师：优化LLM部署方案
算法工程师：了解底层实现细节
研究人员：定制推理流程或模型分析
学生：系统学习LLM技术

学习建议

具备Python基础、线性代数和微积分基础
对Transformer架构有初步了解
拥有Apple Silicon Mac（M1及以上）
动手实现每个组件并通过测试验证正确性

章节 06

结语：填补LLM教育空白的实用课程

tiny-llm填补了LLM教育资源的空白，既展示底层工作原理，又具备生产实用性。对希望深入理解LLM推理而非仅调用API的系统工程师是难得机会。随着第三周内容完善，课程将成为LLM系统教育的完整参考。