正文

Mini LLM Serve：用Go语言构建的轻量级大模型推理控制平面

一个专注于LLM服务控制平面的轻量级Go项目，实现了token感知调度、流式响应、前缀缓存和完整的可观测性体系，为理解现代LLM推理系统提供了清晰的学习范例。

LLM推理Go语言控制平面token调度前缀缓存流式响应可观测性TTFTTBT教学工具

发布时间 2026/05/30 16:45最近活动 2026/05/30 16:49预计阅读 3 分钟

章节 01

导读 / 主楼：Mini LLM Serve：用Go语言构建的轻量级大模型推理控制平面

章节 02

章节 03

现代大语言模型（LLM）推理服务系统如vLLM、TensorRT-LLM、SGLang等虽然功能强大，但代码库庞大复杂，难以从第一性原理理解其工作机制。对于希望深入学习LLM服务架构的开发者来说，这些生产级系统往往过于复杂，难以快速把握核心概念。

Mini LLM Serve项目采用了相反的设计理念：保持代码规模足够小以便阅读，同时足够真实以暴露实际的服务权衡问题。它不是为了替代现有的生产级推理引擎，而是将调度层和系统层独立出来，使核心服务问题更容易端到端地研究和理解。

章节 04

Mini LLM Serve采用token感知的工作调度机制，将请求生命周期管理、预填充（prefill）和解码（decode）阶段分离处理。系统架构的核心流程如下：

GenerateRequest → Request → WorkItem → Scheduler → ExecutorManager → Python Mock Executor → Event → 下一个WorkItem或最终响应

这种分离设计使职责清晰：

章节 05

系统实现了基于token预算的智能调度，将请求分为prefill和decode两个阶段分别处理。这种设计允许更细粒度的资源分配和优化，特别是在处理长短不一的提示词时能够显著提升效率。

章节 06

项目实现了前缀缓存元数据管理，支持缓存命中/未命中的追踪以及节省token的统计。根据项目提供的基准测试数据，前缀缓存可以将平均首token时间（TTFT）从1.73秒降低到0.33秒，实现了约81%的延迟改善。

章节 07

系统内置了Prometheus指标收集，支持以下关键指标：

章节 08

支持unary和server-streaming两种生成路径，满足不同应用场景的需求。流式响应对于交互式应用尤为重要，可以显著提升用户体验。