章节 01
【导读】LLM-Emu:服务原生的LLM推理仿真器核心介绍
LLM-Emu是面向vLLM的服务原生仿真器,核心创新在于保留生产级HTTP服务层、调度器、KV缓存管理和输出处理路径,并将GPU前向执行替换为性能剖析采样的延迟与合成输出token。在多种GPU、模型及工作负载下,TPOT和ITL误差≤4.8%,端到端延迟误差≤5.3%,输出吞吐量误差仅1.9%,为LLM服务系统研究提供低成本高保真实验工具。
正文
LLM-Emu是一个面向vLLM的服务原生仿真器,保留生产级HTTP、调度、KV缓存和输出处理路径,仅将GPU前向执行替换为性能剖析采样的延迟和合成输出token。在多种GPU、模型和工作负载下,TPOT和ITL误差控制在4.8%以内,端到端延迟误差5.3%,输出吞吐量误差1.9%。
章节 01
LLM-Emu是面向vLLM的服务原生仿真器,核心创新在于保留生产级HTTP服务层、调度器、KV缓存管理和输出处理路径,并将GPU前向执行替换为性能剖析采样的延迟与合成输出token。在多种GPU、模型及工作负载下,TPOT和ITL误差≤4.8%,端到端延迟误差≤5.3%,输出吞吐量误差仅1.9%,为LLM服务系统研究提供低成本高保真实验工具。
章节 02
大语言模型服务评估需考虑在线工作负载、动态请求到达等复杂因素,但真实GPU实验成本高昂,导致迭代次数有限、极端场景难测、硬件门槛高。现有仿真器存在离线运行、重写调度器或依赖精确算子模型等局限,易与实际生产环境产生偏差。
章节 03
LLM-Emu采用"服务原生"策略,保留vLLM生产级组件(HTTP层、Continuous Batching调度、KV缓存、输出处理),仅替换GPU执行,以捕捉调度决策、KV缓存动态等真实系统行为。
章节 04
覆盖GPU(2种架构)、模型(4种变体)、模型家族(2个)、注意力后端(2种)、工作负载(Poisson+ShareGPT突发负载)等配置。
章节 05
章节 06
章节 07
LLM-Emu消除GPU依赖,加速LLM服务创新,是研究与工程的强大工具。