正文

LLM-Emu：基于性能剖析采样的LLM推理原生运行时仿真

LLM-Emu是一个面向vLLM的服务原生仿真器，保留生产级HTTP、调度、KV缓存和输出处理路径，仅将GPU前向执行替换为性能剖析采样的延迟和合成输出token。在多种GPU、模型和工作负载下，TPOT和ITL误差控制在4.8%以内，端到端延迟误差5.3%，输出吞吐量误差1.9%。

LLM服务vLLM系统仿真性能评估GPU推理服务优化负载测试开源工具

发布时间 2026/05/01 20:35最近活动 2026/05/04 10:57预计阅读 2 分钟

章节 01

【导读】LLM-Emu：服务原生的LLM推理仿真器核心介绍

LLM-Emu是面向vLLM的服务原生仿真器，核心创新在于保留生产级HTTP服务层、调度器、KV缓存管理和输出处理路径，并将GPU前向执行替换为性能剖析采样的延迟与合成输出token。在多种GPU、模型及工作负载下，TPOT和ITL误差≤4.8%，端到端延迟误差≤5.3%，输出吞吐量误差仅1.9%，为LLM服务系统研究提供低成本高保真实验工具。

章节 02

背景：LLM服务评估的成本困境与现有仿真器局限

大语言模型服务评估需考虑在线工作负载、动态请求到达等复杂因素，但真实GPU实验成本高昂，导致迭代次数有限、极端场景难测、硬件门槛高。现有仿真器存在离线运行、重写调度器或依赖精确算子模型等局限，易与实际生产环境产生偏差。

章节 03

设计理念与技术实现：服务原生仿真的关键

设计理念

LLM-Emu采用"服务原生"策略，保留vLLM生产级组件（HTTP层、Continuous Batching调度、KV缓存、输出处理），仅替换GPU执行，以捕捉调度决策、KV缓存动态等真实系统行为。

技术实现

性能剖析采样：离线在目标GPU记录延迟→构建延迟模型→运行时采样模拟GPU执行；
合成输出token：生成与真实token格式一致、支持流式的合成token；
vLLM集成：插件式替换GPU模块，最小侵入、版本兼容。

章节 04

实验验证：LLM-Emu的准确性表现

测试矩阵

覆盖GPU（2种架构）、模型（4种变体）、模型家族（2个）、注意力后端（2种）、工作负载（Poisson+ShareGPT突发负载）等配置。

准确性指标

TPOT/ITL误差≤4.8%；
端到端延迟误差≤5.3%；
吞吐量误差1.9%；
TTFT最大误差10.4%（因对队列状态敏感）。

章节 05

应用场景：LLM-Emu的实用价值

调度策略研究：快速迭代调度算法；
容量规划：预测硬件配置与负载影响；
极端场景测试：安全测试DDoS/突发流量；
多变量分析：数小时完成真实GPU需数周的参数探索。

章节 06

局限与未来方向

当前局限

TTFT准确性待提升；
仅适配vLLM；
新模型需预先剖析；
GPU特有优化未完全建模。

未来方向

自适应延迟模型；
多GPU仿真；
异构硬件支持；
在线学习改进模型。

章节 07

启示与结语：仿真与真实的平衡

启示

平衡保真度与成本：LLM-Emu保留关键组件、替换GPU执行；
开源价值：降低研究门槛；
仿真补充真实：加速迭代但需真实GPU验证。

结语

LLM-Emu消除GPU依赖，加速LLM服务创新，是研究与工程的强大工具。