章节 01
导读 / 主楼:ModelScan Registry:开源大语言模型元数据统一注册表
一个开放的大语言模型元数据注册表,以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息,支持多源价格对比与标准化查询。
正文
一个开放的大语言模型元数据注册表,以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息,支持多源价格对比与标准化查询。
章节 01
一个开放的大语言模型元数据注册表,以机器可读的JSON格式统一收录模型身份、作者、模态、上下文限制、能力和生命周期信息,支持多源价格对比与标准化查询。
章节 02
章节 03
在大语言模型(LLM)生态爆发式增长的今天,开发者和企业面临一个共同难题:如何快速、准确地获取模型的完整元数据信息。不同平台对同一模型的命名各异,上下文长度、输入输出限制、价格策略分散在各供应商的文档中,更新频率和格式也千差万别。这种信息碎片化严重阻碍了模型选型、成本估算和自动化工具的开发。
ModelScan Registry 应运而生,它试图用一份统一的机器可读文件,解决模型元数据的标准化问题。这个项目不仅仅是一个数据集合,更是一种行业协作的尝试——让模型信息像软件包管理一样标准化。
章节 04
Registry 的核心是一个名为 models.json 的单一JSON文件,通过JSON Schema(draft 2020-12)进行验证。文件结构包含四个顶层字段:schema_version(模式版本)、generated_at(生成时间)、count(模型数量)和 models[](模型数组)。
每个模型条目包含以下关键信息:
稳定身份标识: 每个模型拥有唯一的 id,同时 alias_id 数组收录不同来源的别名,确保同一模型不会被拆分成多条记录。author 字段使用标准化的提供者ID,避免同一开发者出现多种拼写变体。
模态与能力: input_modalities 和 output_modalities 明确标注支持的输入输出类型(文本、图像等),context_length 和 max_output_tokens 定义上下文和输出限制,reasoning 和 tool_calling 布尔值标明是否支持推理和工具调用。
多源价格体系: 这是 Registry 最具特色的设计。价格信息不经过汇率转换,而是保留原始货币单位(USD、CNY等),存储在 offers[] 数组中。每个 offer 包含来源平台、货币、价格层级和条件限制。这意味着你可以直接对比 OpenRouter、LiteLLM、阿里云百炼、火山引擎方舟等不同平台的定价策略,而无需担心汇率损失。
生命周期管理: 当模型从所有来源下架时,会被标记为 deprecation: { status: "delisted", since },保留历史记录而非直接删除,支持合规审计需求。
章节 05
Registry 提供多种便捷的数据消费方式:
命令行工具: 使用 curl 和 jq 快速查询模型数量
curl -s https://raw.githubusercontent.com/modelscan/registry/main/models.json | jq '.models | length'
JavaScript/TypeScript: 现代前端项目可直接 fetch
const { models } = await fetch(
'https://raw.githubusercontent.com/modelscan/registry/main/models.json',
).then((r) => r.json())
Python: 适合数据分析和自动化脚本
import requests
data = requests.get('https://raw.githubusercontent.com/modelscan/registry/main/models.json').json()
models = data['models']
章节 06
这个注册表在多个场景下具有实用价值:
模型选型决策: 开发者可以快速筛选出支持图像输入、上下文长度超过128K、且价格低于特定阈值的模型,而不必逐个查阅供应商文档。
成本估算工具: 基于多源价格数据,可以构建成本对比工具,帮助团队选择最具性价比的推理供应商。特别是对于需要同时考虑国内(CNY)和国际(USD)定价的团队,原生多货币支持避免了汇率转换的麻烦。
自动化管道: CI/CD 流程可以引用 Registry 验证模型参数,确保部署配置与模型能力匹配(如检查上下文长度是否足够)。
学术研究: 标准化的模型元数据为AI研究提供了可靠的数据基础,支持模型能力演进的时间序列分析。
章节 07
Registry 采用开源协作模式,models.json 是机器生成的文件,不接受直接编辑。修正和新增通过维护者覆盖层(maintainer overrides)的方式提交,确保数据一致性。项目欢迎社区贡献,详细的贡献指南见 CONTRIBUTING.md。
CC BY 4.0 许可证意味着你可以在任何场景下使用这些数据,包括商业应用,只需注明来源为 modelscan registry(https://modelscan.io/)。
章节 08
ModelScan Registry 代表了一种重要的基础设施尝试——在LLM生态日益复杂的背景下,为模型元数据建立统一标准。虽然它目前主要覆盖主流商业和开源模型,但其架构设计具有良好的扩展性。
对于开发者而言,这是一个值得收藏的工具;对于整个AI行业而言,这种标准化努力有助于降低信息不对称,促进更健康的竞争和创新。随着模型数量持续增长,类似的元数据注册表将成为AI基础设施中不可或缺的一环。