Zing 论坛

正文

InferenceX Scraper:开源 LLM 推理性能数据采集与分析平台

一个功能完善的开源项目,整合了 InferenceX、OpenRouter、Artificial Analysis 三大数据源,提供 LLM 推理性能基准数据的自动化采集、趋势分析和可视化展示。

LLM大语言模型性能基准数据采集OpenRouterInferenceXArtificial Analysis数据可视化趋势分析Python
发布时间 2026/05/09 21:13最近活动 2026/05/09 21:18预计阅读 3 分钟
InferenceX Scraper:开源 LLM 推理性能数据采集与分析平台
1

章节 01

InferenceX Scraper项目导读:开源LLM推理性能数据整合平台

InferenceX Scraper是一个功能完善的开源项目,旨在解决LLM性能数据来源分散、格式不统一、更新频率各异的痛点。它整合了InferenceX、OpenRouter、Artificial Analysis三大数据源,提供LLM推理性能基准数据的自动化采集、趋势分析和可视化展示,为开发者和企业选型提供可靠依据。

2

章节 02

项目背景:解决LLM性能数据分散痛点

在LLM快速发展的今天,模型性能评估是开发者和企业选型的重要依据,但数据来源分散、格式不统一、更新频率各异带来困扰。InferenceX Scraper构建统一数据采集分析平台,整合三大数据源(SemiAnalysis的InferenceX平台、OpenRouter模型调用统计、Artificial Analysis模型评测数据),形成覆盖性能基准、实际使用量和综合评分的全方位数据视图。

3

章节 03

核心架构:四层分离的完整数据解决方案

项目采用分层架构,分离数据采集、处理、存储和展示环节:

  • 数据采集层:含OpenRouter(采集调用量、应用分布、模型详情)、Artificial Analysis(采集Intelligence Index、推理速度、价格)、InferenceX(采集性能基准)三个模块,遵循统一存储接口。
  • 数据分析层:含趋势分析(7日/30日移动平均线)、异常检测(Z-Score识别异常)、聚类分析(应用场景聚类)三个服务。
  • 数据存储层:支持JSON(原始数据)、Excel(业务友好)、CSV(工具集成)、SQLite(结构化查询),使用量数据统一以十亿为单位。
  • Web服务层:后端基于FastAPI提供RESTful接口,前端用React+ECharts+Ant Design,含总览页、模型对比等模块。
4

章节 04

数据规模:38k+记录覆盖主流LLM模型

截至目前,数据库含38000+记录:

  • 模型每日调用量:17634条
  • 应用使用分布:2090条
  • 模型元数据:713条
  • OpenRouter应用信息:28个
  • OpenRouter模型详情:12945条
  • Artificial Analysis性能数据:1995条
  • InferenceX基准数据:3292条 覆盖主流模型如Llama-3.3-70B、DeepSeek-R1、Kimi-K2.5、MiniMax-M2.5、Qwen-3.5、GLM-5等。
5

章节 05

技术亮点:模块化设计与灵活运行模式

项目技术亮点包括:

  • 模块化设计:各功能模块(爬虫、分析、存储、Web)职责清晰,独立开发测试部署。
  • 统一数据管理:DataStorage类封装多种存储格式操作,简化数据持久化。
  • 灵活运行模式:支持单次采集(once)、API服务(api)、持续采集(collector)三种模式。
  • 完善文档:详尽README涵盖安装配置、使用方法、API说明,降低上手门槛。
6

章节 06

应用场景:助力模型选型与市场趋势研究

项目应用场景包括:

  • 模型选型决策:提供性能、价格、使用率等综合数据,辅助企业和开发者选型。
  • 市场趋势研究:分析调用量时间序列,洞察市场竞争格局和应用场景偏好。
  • 性能基准追踪:InferenceX数据帮助模型开发者定位优化方向,对比竞品。
  • 教学与演示:作为数据工程案例,展示完整数据pipeline构建。
7

章节 07

未来展望:扩展数据源与提升实时性

项目未来可优化方向:

数据源扩展:接入LMSYS Chatbot Arena、Hugging Face Leaderboard等平台。

  • 实时性提升:探索流式数据处理,增强数据实时性。
  • 预测能力增强:基于历史数据构建预测模型,提供前瞻性洞察。
  • 社区协作深化:建立数据贡献机制,共享数据形成合力。
8

章节 08

结语:开源生态下的LLM数据基础设施探索

InferenceX Scraper展示了开源社区在LLM数据基础设施建设的积极探索。在信息分散时代,整合多方数据提供统一视图的尝试尤为珍贵,为技术研究者、产品决策者和开发者提供了解LLM生态全貌的窗口。