章节 01
Meridian:vLLM阶段感知调度器核心导读
Meridian是针对推理模型设计的vLLM调度层,通过区分推理模型的"思考阶段"和"输出阶段",应用不同服务策略,显著提升输出阶段响应速度,同时兼顾思考阶段吞吐量。其核心创新在于阶段感知调度机制,解决传统连续批处理调度器对两阶段同等对待导致的输出延迟问题。
正文
Meridian 通过区分推理模型的"思考阶段"和"输出阶段",实现更高效的 LLM 服务调度,显著提升输出阶段的响应速度。
章节 01
Meridian是针对推理模型设计的vLLM调度层,通过区分推理模型的"思考阶段"和"输出阶段",应用不同服务策略,显著提升输出阶段响应速度,同时兼顾思考阶段吞吐量。其核心创新在于阶段感知调度机制,解决传统连续批处理调度器对两阶段同等对待导致的输出延迟问题。
章节 02
随着DeepSeek-R1、Qwen3等推理模型普及,LLM工作呈现两阶段结构:用户输入→思考阶段(内部推理token,用户不可见,延迟容忍度高,吞吐量导向)→输出阶段(用户可见,延迟零容忍,延迟导向)。传统调度器将两阶段同等对待,使用相同优先级队列和延迟目标,导致输出阶段延迟被思考阶段批处理动态拖累。
章节 03
Meridian核心设计包括:1.双队列调度:输出阶段队列(最高优先级,严格TTOT目标)、思考阶段队列(宽松TPOT目标,2.5倍批处理预算);2.阶段感知KV缓存驱逐:ThinkComplete→ThinkActive→OutputCritical优先级排序;3.基于熵的预算控制:集成EAT(检测收敛)和RPDI(判断推理充分性)信号,智能终止思考阶段。
章节 04
Meridian技术亮点:1.零侵入式vLLM插件:通过属性委托包装现有调度器,无需修改vLLM源码,支持快速试用与回滚;2.分离式KV传输支持:兼容NIXL、Mooncake等框架;3.CUDA优化:熵计算和EAT内核在独立二级CUDA流运行,核心逻辑用Rust编写,PyO3提供Python绑定。
章节 05
Meridian适合:1.高并发推理服务(数百请求时输出延迟隔离);2.交互式应用(聊天机器人等需快速响应);3.成本优化(激进思考阶段批处理,不影响用户体验)。
章节 06
Meridian明确非目标:不是吞吐量优化器、精度保证器、完整推理引擎。它是专注调度层面的优化工具,与vLLM互补。
章节 07
Meridian代表LLM服务架构演进方向:从"一视同仁"批处理转向"因阶段而异"精细化调度。随着推理模型主流化,此类优化将更重要。建议大规模推理服务团队评估Meridian。