Zing 论坛

正文

Spark Dashboard:专为LLM推理打造的实时硬件监控解决方案

Spark Dashboard是一款基于Rust和React构建的实时监控工具,专为Linux系统和NVIDIA GPU设计,可监控GPU、CPU、内存及vLLM推理引擎指标,为AI部署提供全面的可视化和性能洞察。

LLM监控GPU监控vLLMRust实时仪表板NVIDIA推理优化硬件监控WebSocket性能调优
发布时间 2026/05/01 23:40最近活动 2026/05/01 23:56预计阅读 4 分钟
Spark Dashboard:专为LLM推理打造的实时硬件监控解决方案
1

章节 01

导读 / 主楼:Spark Dashboard:专为LLM推理打造的实时硬件监控解决方案

Spark Dashboard是一款基于Rust和React构建的实时监控工具,专为Linux系统和NVIDIA GPU设计,可监控GPU、CPU、内存及vLLM推理引擎指标,为AI部署提供全面的可视化和性能洞察。

2

章节 02

项目概述

在大型语言模型(LLM)部署和运维过程中,实时监控硬件资源使用和推理性能是确保服务稳定性的关键环节。Spark Dashboard正是为解决这一需求而生的开源监控工具,它专为搭载NVIDIA GPU的Linux系统设计,能够同时监控底层硬件指标和上层LLM推理引擎状态。

该项目由Rust后端和React前端组成,通过WebSocket实现数据的实时推送,为用户提供流畅的监控体验。虽然最初为NVIDIA DGX Spark工作站开发,但它兼容任何安装了NVIDIA驱动程序的Linux主机,包括独立GPU工作站、DGX服务器以及云端GPU虚拟机。

3

章节 03

硬件监控能力

Spark Dashboard以每秒一次的频率采集以下硬件指标:

GPU监控

  • GPU利用率、温度、功耗和时钟频率
  • 风扇转速监测
  • GPU事件检测,包括热节流、硬件降频和功耗制动事件

CPU监控

  • 整体CPU利用率统计
  • 每个核心的详细利用率,配合热力图直观展示负载分布

内存监控

  • 系统RAM使用情况
  • GPU显存(VRAM)使用情况
  • 统一内存池检测(适用于CPU和GPU共享内存的系统,如DGX Spark GB10、GH200)

磁盘与网络

  • 磁盘I/O吞吐量
  • 网络I/O速率
4

章节 04

LLM引擎监控

通过与Prometheus指标集成,Spark Dashboard可以监控vLLM等推理引擎的关键性能指标:

  • 吞吐量指标:每秒生成的token数(包括生成token和提示token)
  • 延迟指标:首token时间、token间延迟、端到端延迟、队列等待时间
  • 请求状态:活跃/排队请求数、批处理大小
  • 缓存效率:KV缓存利用率、前缀缓存命中率
  • SLO达成率:服务等级目标的完成情况
5

章节 05

多引擎支持

一个突出的设计特点是支持同时监控多个推理引擎。每个检测到的vLLM进程或容器都会自动获得独立的监控标签页,用户可以在All Engines总览页面查看所有运行引擎的聚合统计,也可以深入单个引擎的详细指标。标签页支持自动轮播,同时会在用户交互时智能暂停,方便聚焦分析。

6

章节 06

后端设计

Spark Dashboard的后端采用Rust语言开发,充分利用了Rust在系统编程和高性能网络服务方面的优势。

双Tokio任务并行架构

系统采用两个独立的Tokio任务并行运行:

  1. 硬件指标采集任务:通过NVML、sysinfo和procfs获取GPU、CPU、内存、磁盘和网络数据
  2. 引擎检测任务:通过进程扫描和Docker API自动发现vLLM实例

两个任务将数据送入广播通道(容量16),由WebSocket处理器分发给所有连接的客户端。这种设计确保了高吞吐量和低延迟的数据传输。

数据流架构

  • Rust后端通过WebSocket与React前端通信
  • 前端使用useMetrics和useMetricsHistory钩子管理数据状态
  • 支持15分钟的滚动历史记录,采用循环缓冲区实现
  • 每2秒批量刷新数据,平衡实时性与性能
7

章节 07

前端设计

前端采用React和TypeScript开发,使用Tailwind CSS进行样式设计。主要组件包括:

  • 仪表盘视图:弧形仪表盘、时序图、火花线图、核心热力图
  • 引擎视图:引擎概览、引擎卡片、详细指标展示
  • 图表组件:时间序列图、火花线、核心热力图

前端通过自定义的useMetrics和useMetricsHistory钩子管理数据,支持15分钟的滚动历史记录。

8

章节 08

快速安装

Spark Dashboard提供两种安装方式:

方式一:通过Cargo安装(推荐)

cargo install spark-dashboard
sudo ~/.cargo/bin/spark-dashboard service install
systemctl status spark-dashboard

方式二:从源码构建

git clone https://github.com/niklasfrick/spark-dashboard.git
cd spark-dashboard
cp .env.example .env
./packaging/install.sh

安装完成后,服务默认在3000端口运行。