章节 01
【主楼】TIDE:LLM推理性能评估的创新方法论——单一可比评分与情境感知诊断
本文介绍TIDE(Throughput × Interactivity Density Envelope)这一LLM推理性能评估创新方法。它解决了传统评估中单一维度指标的局限性,将并发度、张量并行、输入输出长度等多维度扫描结果压缩为单一可比较评分,同时保留情境感知的诊断信息,帮助开发者公平比较不同硬件、并发级别和模型规模下的性能。
正文
TIDE是一种新的LLM推理性能评估方法,将并发度、张量并行、输入/输出长度和模型变体的完整扫描结果压缩为一个可比较的单数值评分,并提供情境感知的诊断信息。
章节 01
本文介绍TIDE(Throughput × Interactivity Density Envelope)这一LLM推理性能评估创新方法。它解决了传统评估中单一维度指标的局限性,将并发度、张量并行、输入输出长度等多维度扫描结果压缩为单一可比较评分,同时保留情境感知的诊断信息,帮助开发者公平比较不同硬件、并发级别和模型规模下的性能。
章节 02
在LLM推理性能评估领域,开发者长期面临公平比较的难题:传统方法仅关注单一维度(如每秒生成token数),却忽视交互延迟、并发扩展性等关键因素。这导致不同硬件配置、并发级别和模型规模之间难以进行有效对比。
章节 03
TIDE的核心是将并发度×张量并行度×输入序列长度×输出序列长度×模型维度的扫描结果压缩为单一评分。它包含两个阶段:
章节 04
TIDE创新地将并发度划分为四个对数均匀区间,实现情境感知:
章节 05
TIDE工具链可处理InferenceX数据,以下是MI355x硬件的评分示例:
总评分:7,327;情境细分:R1=5215,R2=7509,R3=10741,R4=14741
总评分:991,228;情境细分:R1=710965,R2=1376954,R3=1760795,R4=1842960 随着并发度增加,两阶段评分均上升,但解码阶段增长平缓,预填充阶段高并发时接近饱和。
章节 06
TIDE提供完整Python工具链:
fetch_inferencex_dump.sh:下载InferenceX每周数据库转储score_inferencex.py:计算评分并生成报告compare_inferencex.py:比较不同时间点性能差异
添加--pdf参数可生成可视化报告,包括概览页(总评分+情境柱状图)、模型细分页(对数柱状图)、热力图页(模型×情境诊断细节)。章节 07
TIDE评分核心(tide/score.py)数据源无关,支持任何输出dict[Cell, list[OperatingPoint]]格式的加载器,可扩展到其他基准测试平台。核心算法依赖Python 3.9+的statistics.geometric_mean,PDF报告生成需matplotlib,但评分核心仅用标准库。
章节 08
TIDE方法论对优化的指导意义: