Zing 论坛

正文

inference-research:自动化LLM推理引擎 nightly 追踪与基准测试系统

受Andrej Karpathy autoresearch启发,每晚自动抓取vLLM、SGLang等主流推理引擎更新,用Claude Opus智能筛选并生成DGX Spark集群的可执行基准计划。

LLM推理vLLMSGLangTensorRT-LLM自动化研究基准测试DGX SparkClaude Opus
发布时间 2026/04/14 21:45最近活动 2026/04/14 21:51预计阅读 3 分钟
inference-research:自动化LLM推理引擎 nightly 追踪与基准测试系统
1

章节 01

inference-research:自动化LLM推理引擎 nightly 追踪与基准测试系统导读

inference-research是受Andrej Karpathy autoresearch启发的自动化工具,专注于LLM推理引擎的 nightly 追踪与基准测试。它解决了推理系统工程师跟踪技术进展、评估新特性影响并转化为可执行实验计划的挑战。核心功能包括:每晚自动抓取vLLM、SGLang等5大主流推理引擎更新,利用Claude Opus智能筛选并生成DGX Spark集群的可执行基准计划。

2

章节 02

项目背景与设计哲学

背景

Andrej Karpathy的autoresearch展示了自动化跟踪机器学习前沿的方法,inference-research借鉴此理念但聚焦推理系统优化。由于vLLM、SGLang等引擎每日演进,手动跟踪易遗漏关键更新,需自动化方案。

设计原则

  • 全面覆盖:监控5大主流推理引擎
  • 智能筛选:Claude Opus对更新进行影响力排序与解释
  • 行动导向:将洞察转化为真实硬件可执行的基准计划
3

章节 03

监控引擎与硬件基础设施

五大推理引擎

项目 仓库 核心技术焦点
vLLM vllm-project/vllm PagedAttention、分块预填充、推测解码
SGLang sgl-project/sglang RadixAttention、前缀缓存、约束解码
TensorRT-LLM NVIDIA/TensorRT-LLM 量化、动态批处理、Blackwell内核
llm-d llm-d/llm-d K8s原生服务、预填充/解码分离
Dynamo ai-dynamo/dynamo KV路由、NIXL、分离式推理OS

硬件集群

节点 IP地址 配置
spark-01 192.168.1.76 DGX Spark 128GB统一内存(NVLink-C2C)
spark-02 192.168.1.77 DGX Spark 128GB统一内存(NVLink-C2C)
controller 192.168.1.75 CPU专用编排节点
4

章节 04

自动化工作流程

系统每日凌晨2点执行:

数据收集

  • GitHub API:抓取5仓库的PR和release
  • arXiv:检索当日推理相关论文 原始数据JSON保存,支持审计。

智能策展

Claude Opus分析:

  • 影响力排序:按技术重要性分级
  • 意义阐释:解释变更价值
  • 影响评级:🔴(高)、🟡(中)、🟢(低)

基准计划生成

生成DGX Spark集群可执行bash命令序列。

版本化提交

所有输出(报告、数据、计划、日志)提交Git,形成可追溯历史。

5

章节 05

技术亮点与应用场景

技术亮点

  1. 智能自动化:机器收集+AI理解+人类决策的高效分工
  2. 软硬结合:与DGX集群深度集成,洞察转化为实测计划
  3. 生态全景:覆盖不同技术路线的5大引擎
  4. 可扩展架构:易添加仓库、调整策略或替换LLM

应用场景

  • 推理研发团队:跟踪竞品动态
  • AI infra工程师:发现性能优化机会
  • 技术决策者:把握趋势支持选型
  • 学术研究者:了解工业界进展
  • 硬件厂商:优化硬件匹配软件需求
6

章节 06

局限性与改进方向

局限性

  • 数据源有限:未覆盖Hugging Face、Papers with Code
  • 缺乏社区声音:未跟踪issue和讨论
  • 基准执行需人工:未完全自动化
  • 硬件支持单一:仅DGX Spark

改进方向

  • 扩展数据源至Hugging Face等
  • 加入社区讨论跟踪
  • 实现基准自动执行
  • 支持更多硬件配置