Zing 论坛

正文

TIDE:将LLM推理性能压缩为单一可比评分的创新方法论

TIDE是一种新的LLM推理性能评估方法,将并发度、张量并行、输入/输出长度和模型变体的完整扫描结果压缩为一个可比较的单数值评分,并提供情境感知的诊断信息。

LLM推理性能评估TIDE吞吐量交互性并发优化大语言模型推理基准测试
发布时间 2026/05/16 04:15最近活动 2026/05/16 04:17预计阅读 3 分钟
TIDE:将LLM推理性能压缩为单一可比评分的创新方法论
1

章节 01

【主楼】TIDE:LLM推理性能评估的创新方法论——单一可比评分与情境感知诊断

本文介绍TIDE(Throughput × Interactivity Density Envelope)这一LLM推理性能评估创新方法。它解决了传统评估中单一维度指标的局限性,将并发度、张量并行、输入输出长度等多维度扫描结果压缩为单一可比较评分,同时保留情境感知的诊断信息,帮助开发者公平比较不同硬件、并发级别和模型规模下的性能。

2

章节 02

背景:LLM推理性能评估的现存挑战

在LLM推理性能评估领域,开发者长期面临公平比较的难题:传统方法仅关注单一维度(如每秒生成token数),却忽视交互延迟、并发扩展性等关键因素。这导致不同硬件配置、并发级别和模型规模之间难以进行有效对比。

3

章节 03

核心概念:TIDE评分的构成与计算方式

TIDE的核心是将并发度×张量并行度×输入序列长度×输出序列长度×模型维度的扫描结果压缩为单一评分。它包含两个阶段:

  • TIDE_decode:基于每个GPU的输出吞吐量(output tokens/sec/GPU)和交互性(1/TPOT)计算
  • TIDE_prefill:基于每个GPU的输入吞吐量(input tokens/sec/GPU)和交互性(ISL/TTFT)计算 两者均采用分层几何平均法:先按并发情境计算,再按单元格,最后按模型汇总。
4

章节 04

情境感知:四维并发情境划分

TIDE创新地将并发度划分为四个对数均匀区间,实现情境感知:

  • R1 [1-4]:交互式情境(实时对话、低延迟应用)
  • R2 [5-16]:轻量多用户情境(中小型服务部署)
  • R3 [17-64]:中等批处理情境(高吞吐量场景)
  • R4 [65-256]:重批处理情境(大规模离线处理) 每个情境独立计算几何平均值,帮助定位性能变化的具体场景。
5

章节 05

实际应用:MI355x硬件的TIDE评分示例

TIDE工具链可处理InferenceX数据,以下是MI355x硬件的评分示例:

解码阶段

总评分:7,327;情境细分:R1=5215,R2=7509,R3=10741,R4=14741

预填充阶段

总评分:991,228;情境细分:R1=710965,R2=1376954,R3=1760795,R4=1842960 随着并发度增加,两阶段评分均上升,但解码阶段增长平缓,预填充阶段高并发时接近饱和。

6

章节 06

工具链与可视化报告支持

TIDE提供完整Python工具链:

  1. fetch_inferencex_dump.sh:下载InferenceX每周数据库转储
  2. score_inferencex.py:计算评分并生成报告
  3. compare_inferencex.py:比较不同时间点性能差异 添加--pdf参数可生成可视化报告,包括概览页(总评分+情境柱状图)、模型细分页(对数柱状图)、热力图页(模型×情境诊断细节)。
7

章节 07

技术实现与扩展性

TIDE评分核心(tide/score.py)数据源无关,支持任何输出dict[Cell, list[OperatingPoint]]格式的加载器,可扩展到其他基准测试平台。核心算法依赖Python 3.9+的statistics.geometric_mean,PDF报告生成需matplotlib,但评分核心仅用标准库。

8

章节 08

对LLM推理优化的启示

TIDE方法论对优化的指导意义:

  1. 全面评估:避免单一指标优化,确保各情境表现良好
  2. 回归检测:捕捉特定配置下的性能回归
  3. 情境优化:针对特定场景定向优化
  4. 跨平台比较:统一标准实现公平对比 这些启示有助于开发者更高效地优化LLM推理系统。