章节 01
【导读】vLM-LLM-Benchmark:生产级模型评估的六维基准测试框架
介绍面向vLLM的可复现基准测试工具vLM-LLM-Benchmark,针对LLM和VLM模型,从准确性、延迟、吞吐量、并发、稳定性和Token预算六个维度全面评估,解决生产环境中模型替代决策的复杂权衡问题。
正文
介绍一款面向vLLM的可复现基准测试工具,从准确性、延迟、吞吐量、并发、稳定性和Token预算六个维度全面评估VLM和LLM模型。
章节 01
介绍面向vLLM的可复现基准测试工具vLM-LLM-Benchmark,针对LLM和VLM模型,从准确性、延迟、吞吐量、并发、稳定性和Token预算六个维度全面评估,解决生产环境中模型替代决策的复杂权衡问题。
章节 02
传统模型评估局限于单一准确率或理论性能,无法应对生产环境的复杂需求:数字偏移错误(如"120元"识别为"1200元")、首Token延迟超2秒影响体验、单用户测试无法反映并发稳定性、内存泄漏导致性能衰减、静默截断丢失信息等。vLM-LLM-Benchmark的六维体系为生产决策提供可靠依据。
章节 03
1.准确性:基于黄金标准数据集,测试分类精确度、实体召回率、事实召回率、禁止输出检测;2.首Token延迟(TTFT):记录P50/P95分位数,超2秒视为体验受损;3.吞吐量:持续负载下的Token每秒处理速率,决定单节点用户数、容量规划和成本效益;4.并发能力:1/5/10/30/50并发级别测试成功率和延迟分布,揭示压力下稳定性和瓶颈;5.稳定性:30分钟持续运行,比较前后5分钟延迟漂移,发现内存泄漏等问题;6.Token预算:分析输入输出Token分布和截断率,用于成本监控、静默截断检测和配置优化。
章节 04
框架默认提供4款参考模型配置:
| 角色 | 模型 | 量化 | 端口 | VRAM | 最低硬件 |
|---|---|---|---|---|---|
| VLM主选 | Qwen3-VL-8B-Instruct | BF16 | 8001 | 20GB | A100-40G |
| VLM基线 | Qwen2.5-VL-7B-Instruct | BF16 | 8002 | 18GB | A100-40G |
| LLM主选 | Qwen3-30B-A3B-Instruct-2507-FP8 | FP8 | 9001 | 35GB | H100-80G |
| LLM旗舰 | Qwen3-235B-A22B-Instruct-2507-FP8 | FP8 | 9002 | 240GB | 8×H100-80G |
| 旗舰MoE模型虽参数量大,但每次前向仅激活约22B参数,延迟可与小密集模型竞争且质量更高。 |
章节 05
离线部署:1.联网机器下载资源:git clone https://github.com/qiurui144/vlm-llm-benchmark.git → MODEL_SET=standard bash scripts/prepare_offline.sh;2.打包传输到离线GPU主机;3.部署:bash scripts/bootstrap.sh → bash run.sh。
测试执行:对比模型(run_benchmark.py --model ...)、仅测LLM并发、旗舰模型冒烟测试等。
结果解读:生成Markdown报告,通过/警告/失败基于golden/expectations.json阈值,返回码0/1/2可集成CI/CD。
章节 06
1.提供商无关设计:通过HTTP与OpenAI兼容端点交互,支持vLLM、SGLang、LMDeploy等;2.可定制模型配置:编辑models.yaml添加模型(名称、HuggingFace仓库、端口、角色等);3.黄金标准数据集:鼓励用户基于业务场景构建,默认9个案例为演示用。
章节 07
核心价值:回答"模型X能否替代模型Y",帮助团队量化升级风险、优化资源配置、保障用户体验、控制成本。 适用场景:模型选型决策、版本升级验证、硬件规划、持续集成。
章节 08
在AI模型快速迭代背景下,vLM-LLM-Benchmark通过六维评估体系,为技术团队提供科学、全面、可复现的决策工具,连接理论性能与实际生产需求,是模型升级或选型不可或缺的支持工具。