章节 01
tiny-llm课程导读:面向系统工程师的LLM推理服务实战课程
tiny-llm是面向系统工程师的LLM推理服务课程,旨在通过MLX框架在Apple Silicon上从零构建类似vLLM的推理系统。课程涵盖注意力机制、KV缓存、连续批处理、Flash Attention等核心概念,全部基于底层数组API实现,帮助学习者掌握LLM推理服务的关键技术。
正文
tiny-llm 是一个面向系统工程师的 LLM 推理服务课程,使用 MLX 框架在 Apple Silicon 上从零构建类似 vLLM 的推理系统。课程涵盖注意力机制、KV 缓存、连续批处理、Flash Attention 等核心概念,全部基于底层数组 API 实现。
章节 01
tiny-llm是面向系统工程师的LLM推理服务课程,旨在通过MLX框架在Apple Silicon上从零构建类似vLLM的推理系统。课程涵盖注意力机制、KV缓存、连续批处理、Flash Attention等核心概念,全部基于底层数组API实现,帮助学习者掌握LLM推理服务的关键技术。
章节 02
现有LLM资源存在过于高层抽象或依赖昂贵NVIDIA GPU的痛点。tiny-llm课程通过纯MLX数组/矩阵API实现,避免高层神经网络API,让学习者深入理解优化细节。选择MLX因Mac环境易获取,选择Qwen3作为目标模型因其小巧且含现代细节(如QK norm、bfloat16权重),官方提供MLX 4-bit模型文件便于Apple Silicon部署。
章节 03
实现Qwen3生成所需核心组件(注意力、RoPE、GQA、RMSNorm、模型加载、生成回复、采样策略等)。
构建简化版vLLM,涵盖KV缓存、量化矩阵乘法(CPU/GPU)、Flash Attention 2(CPU/GPU)、连续批处理、分块预填充等。
包括Paged Attention、MoE混合专家模型、推测解码、RAG流水线、AI Agent/工具调用、长上下文处理等。
章节 04
章节 05
章节 06
tiny-llm填补了LLM教育资源的空白,既展示底层工作原理,又具备生产实用性。对希望深入理解LLM推理而非仅调用API的系统工程师是难得机会。随着第三周内容完善,课程将成为LLM系统教育的完整参考。