章节 01
【导读】Experiment Tracker:专注研究场景的自托管ML实验追踪平台
Experiment Tracker是一款开源自托管的机器学习实验追踪工具,专为研究密集型工作流设计。核心功能包括指标对比、标量曲线分析、步骤感知工件管理及实验血缘追踪,采用FastAPI+Next.js+PostgreSQL+ClickHouse+MinIO架构,定位清晰——聚焦"实验理解",帮助研究者回答实验关键问题,而非全功能MLOps套件。
正文
一个专注于研究场景的开源实验追踪工具,提供指标对比、标量曲线分析、步骤感知工件管理和实验血缘追踪功能,采用 FastAPI + Next.js + PostgreSQL + ClickHouse + MinIO 架构。
章节 01
Experiment Tracker是一款开源自托管的机器学习实验追踪工具,专为研究密集型工作流设计。核心功能包括指标对比、标量曲线分析、步骤感知工件管理及实验血缘追踪,采用FastAPI+Next.js+PostgreSQL+ClickHouse+MinIO架构,定位清晰——聚焦"实验理解",帮助研究者回答实验关键问题,而非全功能MLOps套件。
章节 02
TensorBoard擅长本地可视化,但Experiment Tracker补充了项目级研究上下文:
章节 03
提供密集表格,支持过滤、排序、导出、高亮极值,侧面板查看元数据
ClickHouse支持,同步坐标轴、平滑处理、保存视图等 ###3. 步骤感知工件审查 按类型/名称分组,关联训练步骤上下文 ###4. 实验血缘追踪 研究树视图,父子关系、在线对比差异 ###5. 文件对比 并排差异高亮,行内变更显示
这些功能遵循研究直觉,先对比指标再深入动态。
章节 04
| 组件 | 用途 |
|---|---|
| PostgreSQL | 关系型状态(用户、项目、权限等) |
| ClickHouse | 高容量标量时序和工件元数据 |
| MinIO/S3 | 大文件存储 |
| FastAPI | 后端编排层 |
| Next.js | 前端界面 |
| Python SDK/CLI | 训练日志与命令行交互 |
Python3.10+、FastAPI、Next.js、PostgreSQL、ClickHouse、MinIO/S3、Docker(自托管支持)
架构按工作负载分离数据,匹配实验数据形态。
章节 05
适合场景
不适合场景
此类MLOps需求可选择W&B或ClearML。
章节 06
Experiment Tracker采用"反潮流"设计:在全功能MLOps平台复杂背景下,聚焦研究核心需求——实验理解。整合关键功能于轻量自托管平台,为需数据主权且想升级实验追踪能力的团队提供务实选择。
建议:正在构建内部ML平台或从TensorBoard升级、不想用重量级商业方案的团队,值得评估该工具。