正文

mini-infer：从零实现的LLM推理引擎与完整技术栈解析

本文深入剖析mini-infer项目——一个从零构建的LLM推理引擎，涵盖PagedAttention、连续批处理、前缀缓存、投机解码等核心机制，并提供详尽的benchmark数据与复现方法。

LLM推理引擎PagedAttention连续批处理投机解码CUDA GraphvLLMQwen推理优化

发布时间 2026/04/09 13:38最近活动 2026/04/09 13:54预计阅读 4 分钟

章节 01

mini-infer项目导读：从零实现LLM推理引擎的核心机制与学习价值

mini-infer是一个从零构建的LLM推理引擎项目，核心定位为教育工具与原型验证平台。它实现了PagedAttention、连续批处理、前缀缓存、投机解码等现代推理系统的关键机制，每个功能均配有独立benchmark数据与复现方法。相比vLLM等生产级系统，mini-infer以精简代码量提供清晰学习路径，帮助开发者深入理解LLM推理原理。

章节 02

mini-infer的项目定位与设计哲学

在LLM推理领域，vLLM等生产级系统代码复杂，学习者难以入门。mini-infer的目标并非竞争生产级功能，而是作为教育工具与原型验证平台：

实现PagedAttention、连续批处理、分块预填充、前缀缓存等关键机制；
每个实现优先保证正确性，并附带详细性能测量；
核心serving路径在Qwen2.5-7B上达到HF Transformers 100%吞吐水平，支持--dry-run模式无需模型权重即可验证接口。

章节 03

mini-infer核心技术机制详解（方法篇）

mini-infer实现了多项LLM推理核心技术：

PagedAttention：采用flash_attn的block_table管理KV缓存，避免内存碎片；
连续批处理：基于AsyncEngine配合OpenAI兼容HTTP API，允许新请求动态加入批次；
分块预填充：将长序列预填充拆分为小块，减少延迟抖动；
前缀缓存：基于块级哈希和LRU淘汰策略复用前缀KV缓存；
投机解码：用小草稿模型预测大模型输出加速推理；
CUDA Graph：静态捕获decode_batch降低CPU开销；
Flash Decoding：基于Triton的split-K优化提升SM利用率；
张量并行：采用NCCL all-reduce和Megatron-LM分片策略；
PD解耦：同机双进程分离预填充与解码阶段。

章节 04

mini-infer核心技术的性能证据与验证

各技术的benchmark数据验证了其效果：

PagedAttention（batch=8）：吞吐406 token/s，与HF Transformers持平；
连续批处理：并发从1到8时，吞吐从55.7 tok/s线性扩展到219.1 tok/s（3.9倍提升）；
分块预填充：混合场景下ITL峰值降低57%-67%；
前缀缓存：共享前缀场景TTFT降低22%；
投机解码：0.5B草稿+7B目标模型接受率55.85%；
CUDA Graph：1.5B模型batch=1时解码延迟降28.9%；
Flash Decoding：序列长度4096时加速3.31倍，SM利用率从9%到103%；
张量并行（TP=2）：输出与单卡完全一致（正确性验证）；
PD解耦：预填充12.3ms、传输14.7ms、解码519ms。

章节 05

mini-infer的架构设计与代码组织

mini-infer采用模块化代码结构：

core/：EngineConfig、Request、SamplingParams等核心配置；
runtime/：LLMEngine、Scheduler、AsyncEngine等运行时组件；
cache/：KVCacheManager（BlockTable + Prefix Cache）；
modeling/：ModelRunner实现；
kernels/：PagedAttention、Triton decode等内核；
parallel/：张量并行、副本、流水线并行；
serving/：FastAPI服务器、OpenAI Schema兼容层；此外，benchmarks目录含21个独立脚本，tests目录有287个测试项（多数支持dry_run）。

章节 06

mini-infer快速上手与使用指南

mini-infer支持pip安装与快速启动：

安装：pip install -e ".[serve,dev]"
Dry-run模式（无需模型）：mini-infer-serve --dry-run --port 8000
真实模型启动：mini-infer-serve --model /path/to/Qwen2.5-7B --port 8000 服务启动后，可通过OpenAI兼容API调用，支持流式输出与多轮对话。

章节 07

mini-infer与vLLM对比及工程学习意义

与vLLM对比

维度	mini-infer	vLLM
目标	从零实现并测量关键推理机制	生产级：高吞吐、多模型、SLO保障
PagedAttention	与vLLM同路线	相同路线，更成熟
模型覆盖	Qwen2.5 / DeepSeek-V2	数十种架构，自动适配
调度器	手工实现，四队列+chunked prefill	完整SLO、KV共享感知
部署	单机原型	K8s、多机RDMA、完整监控