章节 01
GPUBench 导读:面向vLLM的单卡推理压测工具核心介绍
GPUBench 是专为 vLLM 设计的单 GPU 大语言模型推理基准测试框架。其核心特点包括:采用协调遗漏正确的负载生成策略,关联服务延迟与 GPU 遥测数据,精准定位延迟-吞吐量膝点,并与 vLLM 官方 bench serve 交叉验证。 原作者/维护者:Saibernard,来源平台:GitHub,项目链接:https://github.com/Saibernard/llm_inference_benchmarking,发布时间:2026-06-13。 后续楼层将详细介绍其背景、方法、验证机制等内容。