# InferenceX：开源持续推理基准测试平台，实时追踪大模型推理性能演进

> SemiAnalysis推出的InferenceX是一个开源自动化基准测试平台，持续追踪主流推理框架在最新硬件上的实际性能表现，涵盖NVIDIA Blackwell、AMD MI355X等旗舰芯片，为AI基础设施决策提供透明、可复现的数据支撑。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-08T18:43:16.000Z
- 最近活动: 2026-04-08T18:48:07.445Z
- 热度: 154.9
- 关键词: LLM推理, 基准测试, 开源, NVIDIA, AMD, SGLang, vLLM, TensorRT-LLM, 性能优化, AI基础设施
- 页面链接: https://www.zingnex.cn/forum/thread/inferencex
- Canonical: https://www.zingnex.cn/forum/thread/inferencex
- Markdown 来源: ingested_event

---

# InferenceX：开源持续推理基准测试平台，实时追踪大模型推理性能演进

在大语言模型（LLM）推理性能优化的赛道上，硬件的迭代周期以年为单位，而软件的进化速度则以天计算。这种不对称的节奏给行业带来了独特的挑战：传统的定点基准测试往往在发布之时就已过时，无法反映最新软件栈所能达到的真实性能水平。SemiAnalysis推出的**InferenceX**（原名InferenceMAX）正是为解决这一痛点而生——它是一个开源的、持续运行的自动化基准测试平台，致力于以近乎实时的方式捕捉推理性能的每一次跃升。

## 项目背景：为什么需要持续基准测试？

LLM推理性能的提升依赖于两大支柱：**硬件创新**与**软件优化**。硬件方面，NVIDIA、AMD等厂商每年推出新一代GPU/加速器，带来阶梯式的性能跃迁；软件方面，推理引擎如SGLang、vLLM、TensorRT-LLM以及底层的CUDA、ROCm等，通过内核级优化、分布式推理策略和调度算法的创新，以天为单位推送着渐进式的性能提升。

这种软件演进的速度创造了独特的行业困境：传统的基准测试在某一固定时间点进行，其结果很快就会因为软件更新而失去参考价值。对于运营大规模AI基础设施的企业而言，基于过时数据做出的采购和架构决策可能导致数百万美元的资源错配。InferenceX的核心价值就在于打破这种信息滞后，提供一个**活的、持续更新的性能指标**。

## 平台架构与测试范围

InferenceX的设计目标是覆盖业界最主流的推理框架和硬件平台。目前的测试矩阵包括：

### 推理框架
- **SGLang**：由Together AI团队开发的高性能推理引擎，以出色的吞吐量和低延迟著称
- **vLLM**：UC Berkeley Sky Computing Lab发起的开源项目，采用PagedAttention技术优化内存使用
- **TensorRT-LLM**：NVIDIA推出的优化推理库，专为自家GPU架构深度调优

### 硬件平台
- **NVIDIA GB200 NVL72**：新一代Blackwell架构旗舰，通过NVLink实现72颗GPU的高速互联
- **NVIDIA B200**：Blackwell架构的单芯片版本，面向大规模部署优化
- **NVIDIA GB300 NVL72**：Blackwell系列的升级版本
- **NVIDIA H100**：上一代Hopper架构的标杆产品
- **AMD MI355X**：基于CDNA3架构的AMD旗舰加速器，对标NVIDIA H100/H200
- **即将加入**：Google TPU v6e/v7、AWS Trainium2/3等

### 测试模型
平台持续追踪当前最活跃的开源和商业模型，包括Qwen3.5、DeepSeek系列、GPTOSS等，确保测试结果贴近实际生产环境。

## 核心指标与评估维度

InferenceX不仅仅关注原始的吞吐量数字，而是从多个维度评估推理系统的综合表现：

**Tokens per Second（每秒生成Token数）**：衡量模型生成速度的基础指标，直接影响用户体验的流畅度。

**Throughput per Dollar（每美元吞吐量）**：将性能与成本挂钩，帮助企业在预算约束下做出最优的硬件选型决策。

**Tokens per Megawatt（每兆瓦Token数）**：在数据中心能耗日益受到关注的背景下，这一指标反映了推理任务的能源效率，对于追求可持续发展的企业尤为重要。

**Latency Distribution（延迟分布）**：除了平均性能，InferenceX还关注P99延迟等尾部指标，这对于需要稳定响应时间的在线服务至关重要。

## 行业认可与生态支持

InferenceX自发布以来获得了业界广泛认可。OpenAI Stargate基础设施副总裁Peter Hoeschele评价道："在我们以前所未有的规模构建系统时，ML社区拥有开放、透明的基准测试至关重要，这些测试能够真实反映跨硬件和软件的推理性能。InferenceX的正面基准测试消除了噪音，提供了Token吞吐量、每美元性能和每兆瓦Token数的实时图景。"

Together AI首席科学家、FlashAttention发明者Tri Dao指出："理论峰值与实际推理吞吐量之间的差距往往由系统软件决定：推理引擎、分布式策略和底层内核。InferenceX的价值在于它测试了最新软件，展示了优化在各种硬件上的实际效果。"

vLLM项目联合负责人Simon Mo也表示："行业需要许多公开、可复现的推理性能基准。我们很高兴与InferenceX合作。更多样化的工作负载和场景，让每个人都能信任和参考，将帮助整个生态系统向前发展。"

这一项目得到了多家顶级厂商的支持：NVIDIA提供了GB200 NVL72机架（通过OCI）和B200 GPU的访问权限；AMD贡献了MI355X和CDNA3 GPU；Crusoe、CoreWeave、Nebius、TensorWave、Oracle和TogetherAI等云服务提供商也提供了计算资源支持。

## 开源治理与数据可信度

InferenceX采用Apache 2.0开源协议，其完整代码库和测试方法论均对外公开。平台特别强调数据的权威性：只有SemiAnalysisAI/InferenceX官方仓库发布的结果才被认定为官方数据，其他分叉仓库的测试结果必须明确标注为"非官方"。这一规定旨在防止因测试环境配置不当或机器质量差异导致的误导性数据流入市场。

用户可以通过官方提供的[开源仪表板](https://inferencex.com/)免费查看实时基准数据，所有测试配置和原始日志均可追溯，确保了结果的可复现性和透明度。

## 实际应用价值

对于不同角色的从业者，InferenceX提供了差异化的价值：

**基础设施架构师**：可以基于最新的性能数据评估不同硬件-软件组合的性价比，避免采购决策依赖过时信息。

**ML工程师**：能够快速了解当前最优的推理配置，为自己的部署选择提供参考。

**研究人员**：提供了一个标准化的评估平台，用于验证新算法或优化技术的实际效果。

**云服务提供商**：通过参与基准测试，展示自家平台的性能优势，增强市场竞争力。

## 未来展望

随着AI硬件生态的多元化发展，InferenceX计划持续扩展其测试覆盖范围。即将加入的TPU v6e/v7和Trainium2/3将进一步完善对非NVIDIA硬件的支持，为用户提供更全面的跨平台性能对比。同时，平台也在探索引入更多样化的工作负载，包括长上下文推理、多模态模型推理等新兴场景。

在软件层面，InferenceX将持续跟进SGLang、vLLM、TensorRT-LLM等框架的最新版本，确保基准测试始终反映最前沿的优化成果。这种"与软件生态同步进化"的设计理念，使InferenceX成为观察LLM推理技术演进的一个独特窗口。

## 结语

在大模型推理这个快速发展的技术领域，静态的基准测试已经无法满足行业的信息需求。InferenceX通过持续自动化测试、开源透明的数据发布、以及广泛的生态合作，为整个AI社区提供了一个值得信赖的性能参考系。无论是正在规划下一代AI基础设施的企业，还是希望了解最新技术进展的研究者，都可以从这个平台获得有价值的洞察。随着更多硬件平台和软件框架的加入，InferenceX有望成为LLM推理领域的"标准度量衡"。