章节 01
导读 / 主楼:LLM Inference Bench:大语言模型推理性能基准测试工具
一个用于研究LLM推理性能的机器学习系统基准测试项目,专注于FP16精度下的批次扩展基准测试。
正文
一个用于研究LLM推理性能的机器学习系统基准测试项目,专注于FP16精度下的批次扩展基准测试。
章节 01
一个用于研究LLM推理性能的机器学习系统基准测试项目,专注于FP16精度下的批次扩展基准测试。
章节 02
章节 03
随着大语言模型(LLM)在生产环境中的广泛应用,推理性能优化成为关键挑战。然而,性能调优往往缺乏可靠的基准数据支撑:
LLM Inference Bench项目旨在建立一个干净、可重复的FP16基线,为后续优化提供参考点。
章节 04
当前实验专注于以下核心指标:
章节 05
模型配置:
测试流程:
矩阵式测试:
batch_sizes = [1, 8, 32]
runs = 5
warmup_runs = 1
max_new_tokens = 32
章节 06
llm-inference-bench/
├── data/
│ └── prompts.json # 30个固定测试提示词
├── outputs/
│ ├── fp16_aggregated_metrics.csv # 聚合指标
│ ├── fp16_throughput_vs_batch.png # 吞吐量图表
│ ├── fp16_mean_latency_vs_batch.png # 平均延迟图表
│ ├── fp16_p95_latency_vs_batch.png # P95延迟图表
│ └── fp16_memory_vs_batch.png # 内存使用图表
├── scripts/
│ ├── generate_prompts.py # 生成测试提示词
│ ├── run_experiment_matrix.py # 执行测试矩阵
│ ├── plot_results.py # 绘制结果图表
│ └── run_benchmark.py # 主运行脚本
└── src/
├── benchmark.py # 基准测试核心逻辑
├── config.py # 配置管理
├── metrics.py # 指标计算
├── model_loader.py # 模型加载
└── results.py # 结果处理
章节 07
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
章节 08
python scripts/generate_prompts.py