Zing 论坛

正文

ModelScan Registry:开源大语言模型元数据统一注册表

一个开放的大语言模型元数据注册表,以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息,支持多源价格对比与标准化查询。

LLM模型注册表元数据JSON Schema模型选型价格对比开源
发布时间 2026/06/01 04:07最近活动 2026/06/01 04:19预计阅读 5 分钟
ModelScan Registry:开源大语言模型元数据统一注册表
1

章节 01

导读 / 主楼:ModelScan Registry:开源大语言模型元数据统一注册表

一个开放的大语言模型元数据注册表,以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息,支持多源价格对比与标准化查询。

2

章节 02

原作者与来源

  • 原作者/维护者: modelscan 组织
  • 来源平台: GitHub
  • 原始标题: registry
  • 原始链接: https://github.com/modelscan/registry
  • 发布时间: 2026年5月31日
  • 许可证: CC BY 4.0
3

章节 03

项目背景与痛点

在大语言模型(LLM)生态爆发式增长的今天,开发者和企业面临一个共同难题:如何快速、准确地获取模型的完整元数据信息。不同平台对同一模型的命名各异,上下文长度、输入输出限制、价格策略分散在各供应商的文档中,更新频率和格式也千差万别。这种信息碎片化严重阻碍了模型选型、成本估算和自动化工具的开发。

ModelScan Registry 应运而生,它试图用一份统一的机器可读文件,解决模型元数据的标准化问题。这个项目不仅仅是一个数据集合,更是一种行业协作的尝试——让模型信息像软件包管理一样标准化。

4

章节 04

核心设计与技术架构

Registry 的核心是一个名为 models.json 的单一JSON文件,通过JSON Schema(draft 2020-12)进行验证。文件结构包含四个顶层字段:schema_version(模式版本)、generated_at(生成时间)、count(模型数量)和 models[](模型数组)。

每个模型条目包含以下关键信息:

  • 稳定身份标识: 每个模型拥有唯一的 id,同时 alias_id 数组收录不同来源的别名,确保同一模型不会被拆分成多条记录。author 字段使用标准化的提供者ID,避免同一开发者出现多种拼写变体。

  • 模态与能力: input_modalitiesoutput_modalities 明确标注支持的输入输出类型(文本、图像等),context_lengthmax_output_tokens 定义上下文和输出限制,reasoningtool_calling 布尔值标明是否支持推理和工具调用。

  • 多源价格体系: 这是 Registry 最具特色的设计。价格信息不经过汇率转换,而是保留原始货币单位(USD、CNY等),存储在 offers[] 数组中。每个 offer 包含来源平台、货币、价格层级和条件限制。这意味着你可以直接对比 OpenRouter、LiteLLM、阿里云百炼、火山引擎方舟等不同平台的定价策略,而无需担心汇率损失。

  • 生命周期管理: 当模型从所有来源下架时,会被标记为 deprecation: { status: "delisted", since },保留历史记录而非直接删除,支持合规审计需求。

5

章节 05

数据消费方式

Registry 提供多种便捷的数据消费方式:

命令行工具: 使用 curl 和 jq 快速查询模型数量

curl -s https://raw.githubusercontent.com/modelscan/registry/main/models.json | jq '.models | length'

JavaScript/TypeScript: 现代前端项目可直接 fetch

const { models } = await fetch(
  'https://raw.githubusercontent.com/modelscan/registry/main/models.json',
).then((r) => r.json())

Python: 适合数据分析和自动化脚本

import requests
data = requests.get('https://raw.githubusercontent.com/modelscan/registry/main/models.json').json()
models = data['models']
6

章节 06

实际应用场景

这个注册表在多个场景下具有实用价值:

模型选型决策: 开发者可以快速筛选出支持图像输入、上下文长度超过128K、且价格低于特定阈值的模型,而不必逐个查阅供应商文档。

成本估算工具: 基于多源价格数据,可以构建成本对比工具,帮助团队选择最具性价比的推理供应商。特别是对于需要同时考虑国内(CNY)和国际(USD)定价的团队,原生多货币支持避免了汇率转换的麻烦。

自动化管道: CI/CD 流程可以引用 Registry 验证模型参数,确保部署配置与模型能力匹配(如检查上下文长度是否足够)。

学术研究: 标准化的模型元数据为AI研究提供了可靠的数据基础,支持模型能力演进的时间序列分析。

7

章节 07

贡献与治理模式

Registry 采用开源协作模式,models.json 是机器生成的文件,不接受直接编辑。修正和新增通过维护者覆盖层(maintainer overrides)的方式提交,确保数据一致性。项目欢迎社区贡献,详细的贡献指南见 CONTRIBUTING.md

CC BY 4.0 许可证意味着你可以在任何场景下使用这些数据,包括商业应用,只需注明来源为 modelscan registry(https://modelscan.io/)。

8

章节 08

总结与展望

ModelScan Registry 代表了一种重要的基础设施尝试——在LLM生态日益复杂的背景下,为模型元数据建立统一标准。虽然它目前主要覆盖主流商业和开源模型,但其架构设计具有良好的扩展性。

对于开发者而言,这是一个值得收藏的工具;对于整个AI行业而言,这种标准化努力有助于降低信息不对称,促进更健康的竞争和创新。随着模型数量持续增长,类似的元数据注册表将成为AI基础设施中不可或缺的一环。