正文

ModelScan Registry：开源大语言模型元数据统一注册表

一个开放的大语言模型元数据注册表，以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息，支持多源价格对比与标准化查询。

LLM模型注册表元数据JSON Schema模型选型价格对比开源

发布时间 2026/06/01 04:07最近活动 2026/06/01 04:19预计阅读 5 分钟

章节 01

导读 / 主楼：ModelScan Registry：开源大语言模型元数据统一注册表

章节 02

原作者与来源

原作者/维护者: modelscan 组织
来源平台: GitHub
原始标题: registry
原始链接: https://github.com/modelscan/registry
发布时间: 2026年5月31日
许可证: CC BY 4.0

章节 03

项目背景与痛点

在大语言模型（LLM）生态爆发式增长的今天，开发者和企业面临一个共同难题：如何快速、准确地获取模型的完整元数据信息。不同平台对同一模型的命名各异，上下文长度、输入输出限制、价格策略分散在各供应商的文档中，更新频率和格式也千差万别。这种信息碎片化严重阻碍了模型选型、成本估算和自动化工具的开发。

ModelScan Registry 应运而生，它试图用一份统一的机器可读文件，解决模型元数据的标准化问题。这个项目不仅仅是一个数据集合，更是一种行业协作的尝试——让模型信息像软件包管理一样标准化。

章节 04

核心设计与技术架构

Registry 的核心是一个名为 models.json 的单一JSON文件，通过JSON Schema（draft 2020-12）进行验证。文件结构包含四个顶层字段：schema_version（模式版本）、generated_at（生成时间）、count（模型数量）和 models[]（模型数组）。

每个模型条目包含以下关键信息：

稳定身份标识: 每个模型拥有唯一的 id，同时 alias_id 数组收录不同来源的别名，确保同一模型不会被拆分成多条记录。author 字段使用标准化的提供者ID，避免同一开发者出现多种拼写变体。
模态与能力: input_modalities 和 output_modalities 明确标注支持的输入输出类型（文本、图像等），context_length 和 max_output_tokens 定义上下文和输出限制，reasoning 和 tool_calling 布尔值标明是否支持推理和工具调用。
多源价格体系: 这是 Registry 最具特色的设计。价格信息不经过汇率转换，而是保留原始货币单位（USD、CNY等），存储在 offers[] 数组中。每个 offer 包含来源平台、货币、价格层级和条件限制。这意味着你可以直接对比 OpenRouter、LiteLLM、阿里云百炼、火山引擎方舟等不同平台的定价策略，而无需担心汇率损失。
生命周期管理: 当模型从所有来源下架时，会被标记为 deprecation: { status: "delisted", since }，保留历史记录而非直接删除，支持合规审计需求。

章节 05

数据消费方式

Registry 提供多种便捷的数据消费方式：

命令行工具: 使用 curl 和 jq 快速查询模型数量

curl -s https://raw.githubusercontent.com/modelscan/registry/main/models.json | jq '.models | length'

JavaScript/TypeScript: 现代前端项目可直接 fetch

const { models } = await fetch(
  'https://raw.githubusercontent.com/modelscan/registry/main/models.json',
).then((r) => r.json())

Python: 适合数据分析和自动化脚本

import requests
data = requests.get('https://raw.githubusercontent.com/modelscan/registry/main/models.json').json()
models = data['models']

章节 06

实际应用场景

这个注册表在多个场景下具有实用价值：

模型选型决策: 开发者可以快速筛选出支持图像输入、上下文长度超过128K、且价格低于特定阈值的模型，而不必逐个查阅供应商文档。

成本估算工具: 基于多源价格数据，可以构建成本对比工具，帮助团队选择最具性价比的推理供应商。特别是对于需要同时考虑国内（CNY）和国际（USD）定价的团队，原生多货币支持避免了汇率转换的麻烦。

自动化管道: CI/CD 流程可以引用 Registry 验证模型参数，确保部署配置与模型能力匹配（如检查上下文长度是否足够）。

学术研究: 标准化的模型元数据为AI研究提供了可靠的数据基础，支持模型能力演进的时间序列分析。

章节 07

贡献与治理模式

Registry 采用开源协作模式，models.json 是机器生成的文件，不接受直接编辑。修正和新增通过维护者覆盖层（maintainer overrides）的方式提交，确保数据一致性。项目欢迎社区贡献，详细的贡献指南见 CONTRIBUTING.md。

CC BY 4.0 许可证意味着你可以在任何场景下使用这些数据，包括商业应用，只需注明来源为 modelscan registry（https://modelscan.io/）。

章节 08

总结与展望

ModelScan Registry 代表了一种重要的基础设施尝试——在LLM生态日益复杂的背景下，为模型元数据建立统一标准。虽然它目前主要覆盖主流商业和开源模型，但其架构设计具有良好的扩展性。

对于开发者而言，这是一个值得收藏的工具；对于整个AI行业而言，这种标准化努力有助于降低信息不对称，促进更健康的竞争和创新。随着模型数量持续增长，类似的元数据注册表将成为AI基础设施中不可或缺的一环。

ModelScan Registry：开源大语言模型元数据统一注册表

导读 / 主楼：ModelScan Registry：开源大语言模型元数据统一注册表

原作者与来源

项目背景与痛点

核心设计与技术架构

数据消费方式

实际应用场景

贡献与治理模式

总结与展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统