# InferenceX Scraper：开源 LLM 推理性能数据采集与分析平台

> 一个功能完善的开源项目，整合了 InferenceX、OpenRouter、Artificial Analysis 三大数据源，提供 LLM 推理性能基准数据的自动化采集、趋势分析和可视化展示。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-09T13:13:31.000Z
- 最近活动: 2026-05-09T13:18:24.180Z
- 热度: 163.9
- 关键词: LLM, 大语言模型, 性能基准, 数据采集, OpenRouter, InferenceX, Artificial Analysis, 数据可视化, 趋势分析, Python
- 页面链接: https://www.zingnex.cn/forum/thread/inferencex-scraper-llm
- Canonical: https://www.zingnex.cn/forum/thread/inferencex-scraper-llm
- Markdown 来源: ingested_event

---

## 项目背景与定位\n\n在大语言模型（LLM）快速发展的今天，模型性能评估已经成为开发者和企业选型的重要依据。然而，性能数据来源分散、格式不统一、更新频率各异，给实际应用带来了不小的困扰。InferenceX Scraper 项目正是为了解决这一痛点而生，它构建了一个统一的数据采集和分析平台，让 LLM 推理性能数据的获取变得简单可靠。\n\n这个项目不仅仅是一个简单的爬虫工具，而是一个完整的数据工程解决方案。它整合了行业内三个重要的数据源——SemiAnalysis 的 InferenceX 平台、OpenRouter 的模型调用统计以及 Artificial Analysis 的模型评测数据，形成了一个覆盖性能基准、实际使用量和综合评分的全方位数据视图。\n\n## 核心架构设计\n\n项目采用了清晰的分层架构，将数据采集、处理、存储和展示四个环节有机分离。这种设计不仅提高了代码的可维护性，也为后续的功能扩展留下了充足的空间。\n\n### 数据采集层（Crawler）\n\n数据采集层是整个系统的入口，负责从各个外部源获取原始数据。针对不同的数据源，项目设计了专门的采集模块：\n\n- **OpenRouter 爬虫模块**：负责采集模型调用量、应用使用分布和模型详情。OpenRouter 作为重要的模型聚合平台，其实际使用数据能够反映市场对不同模型的真实选择。\n\n- **Artificial Analysis 爬虫模块**：采集 AI 模型的综合评测数据，包括 Intelligence Index、推理速度和价格等关键指标。这些数据对于模型选型具有重要参考价值。\n\n- **InferenceX 爬虫模块**：从 SemiAnalysis InferenceX 平台采集 LLM 推理性能基准数据。InferenceX 以其严格的测试方法和详细的性能报告而闻名，是评估模型推理效率的重要参考。\n\n每个爬虫模块都遵循统一的数据存储接口，确保采集到的数据能够被后续处理环节无缝消费。\n\n### 数据分析层（Analysis）\n\n原始数据的价值需要通过分析才能充分释放。项目内置了三个核心分析服务：\n\n**趋势分析服务（Trend Analyzer）**\n\n趋势分析是理解模型发展动态的关键。项目实现了 7 日和 30 日移动平均线的计算，帮助用户平滑短期波动，看清长期趋势。无论是单个模型的使用量变化，还是不同模型之间的竞争态势，都能通过趋势图表一目了然。\n\n**异常检测服务（Anomaly Detector）**\n\n在大规模数据监控中，异常检测至关重要。项目采用了 Z-Score 统计方法，能够自动识别数据中的异常点，包括零使用量、突变模式等。当某个模型的调用量突然激增或骤降时，系统能够及时发出告警，帮助用户捕捉市场变化信号。\n\n**聚类分析服务（Cluster Analyzer）**\n\n应用场景的聚类分析能够帮助用户理解 LLM 在实际业务中的分布情况。通过分析不同应用对模型的选择偏好，可以洞察各个垂直领域的模型使用模式，为产品决策提供数据支撑。\n\n### 数据存储层（Data）\n\n项目设计了一套统一的数据存储管理机制，支持多种数据格式的持久化：\n\n- **JSON 原始数据**：保留从各数据源获取的原始响应，便于审计和回溯\n- **Excel 处理数据**：面向业务人员的友好格式，支持进一步的手工分析\n- **CSV 处理数据**：轻量级格式，方便与其他工具集成\n- **SQLite 数据库**：结构化存储，支持复杂的查询和分析操作\n\n值得一提的是，所有使用量数据（Token 数、请求数）在展示时统一转换为以"十亿（B）"为单位，这种标准化处理大大提升了数据的可读性。\n\n### Web 服务层（Web）\n\n项目提供了完整的 Web 界面，采用现代化的技术栈构建：\n\n- **后端 API**：基于 FastAPI 框架，提供 RESTful 接口，支持模型趋势查询、应用分布分析、多模型对比等功能\n- **前端界面**：基于 React + ECharts + Ant Design，提供直观的图表展示和交互体验\n\n前端界面包含了总览页、模型对比分析、应用分布分析、OpenRouter 应用市场等多个功能模块，满足不同场景的数据查看需求。\n\n## 数据规模与覆盖范围\n\n经过持续的采集和积累，项目已经构建了相当规模的数据资产。截至目前，数据库中包含了超过 38,000 条记录，涵盖：\n\n- **模型每日调用量**：17,634 条记录，追踪各模型的实际使用情况\n- **应用使用分布**：2,090 条记录，反映不同应用场景的模型偏好\n- **模型元数据**：713 条记录，维护模型的基本信息和属性\n- **OpenRouter 应用信息**：28 个应用的详细资料\n- **OpenRouter 模型详情**：12,945 条记录，覆盖模型调用的方方面面\n- **Artificial Analysis 性能数据**：1,995 条记录，包含多维度的模型评测结果\n- **InferenceX 基准数据**：3,292 条记录，详尽的推理性能测试结果\n\n在模型覆盖方面，项目追踪了当前主流的大语言模型，包括 Llama-3.3-70B、DeepSeek-R1、Kimi-K2.5、MiniMax-M2.5、Qwen-3.5、GLM-5 等。这种广泛的覆盖确保了数据的代表性和参考价值。\n\n## 技术亮点与工程实践\n\n### 模块化设计\n\n项目严格遵循模块化原则，每个功能模块都有清晰的职责边界。爬虫、分析、存储、Web 服务各司其职，通过定义良好的接口进行协作。这种设计使得各个模块可以独立开发、测试和部署，也便于社区贡献者参与特定模块的改进。\n\n### 统一的数据管理\n\n项目设计了 DataStorage 类作为数据存储的统一入口，封装了 JSON、Excel、CSV 和数据库等多种存储格式的操作细节。开发者只需要调用简洁的 API，就能完成数据的持久化，无需关心底层的文件路径和格式转换。\n\n### 灵活的运行模式\n\n项目支持多种运行模式，适应不同的使用场景：\n\n- **单次采集模式**：`python run.py once`，适合手动触发数据更新\n- **API 服务模式**：`python run.py api`，启动后端服务供前端调用\n- **采集器模式**：`python run.py collector`，作为后台服务持续采集数据\n\n### 完善的文档与示例\n\n项目提供了详尽的 README 文档，涵盖了安装配置、使用方法、API 接口说明等内容。对于每个数据源，都给出了具体的采集命令示例，降低了上手门槛。\n\n## 应用场景与价值\n\nInferenceX Scraper 项目可以服务于多种应用场景：\n\n**模型选型决策支持**\n\n对于正在评估 LLM 方案的企业和开发者，项目提供的综合数据能够帮助全面了解各模型在性能、价格、实际使用率等维度的表现，做出更明智的选型决策。\n\n**市场趋势研究**\n\n通过分析模型调用量的时间序列数据，研究人员可以洞察 LLM 市场的竞争格局演变，识别新兴模型的崛起趋势，理解不同应用场景的模型偏好变化。\n\n**性能基准追踪**\n\n对于模型开发者而言，InferenceX 的详细性能基准数据可以帮助定位优化方向，对比竞品的表现，验证优化措施的效果。\n\n**教学与演示**\n\n项目本身也是一个优秀的数据工程教学案例，展示了如何构建一个完整的数据采集、处理、分析 pipeline，对于学习数据工程和 LLM 应用开发都有参考价值。\n\n## 项目展望\n\n作为一个开源项目，InferenceX Scraper 已经具备了相当的功能完整度，但仍有进一步发展的空间：\n\n- **数据源扩展**：可以接入更多的性能基准平台，如 LMSYS Chatbot Arena、Hugging Face Leaderboard 等，进一步丰富数据维度\n- **实时性提升**：当前架构以批量采集为主，未来可以探索流式数据处理，提升数据的实时性\n- **预测能力增强**：基于历史数据构建预测模型，为模型使用量趋势、价格变动等提供前瞻性洞察\n- **社区协作深化**：建立数据贡献机制，让社区成员能够共享采集到的数据，形成更大的数据合力\n\n## 结语\n\nInferenceX Scraper 项目展示了开源社区在 LLM 数据基础设施建设方面的积极探索。在一个信息爆炸但又高度分散的时代，这种整合多方数据、提供统一视图的尝试显得尤为珍贵。无论是对于技术研究者、产品决策者还是普通开发者，这个项目都提供了一个了解 LLM 生态全貌的窗口。
