Zing 论坛

正文

Tokenmill:Rust 构建的 LLM 推理集群离散事件模拟器

一款专为大型语言模型推理集群设计的离散事件模拟器,支持多种调度器、并行策略、硬件配置和性能预测,帮助开发者在实际部署 GPU 前进行容量规划和 what-if 分析。

LLM推理离散事件模拟RustGPU集群性能预测容量规划Tokenmill调度器量化推理优化
发布时间 2026/06/04 19:42最近活动 2026/06/04 19:53预计阅读 2 分钟
Tokenmill:Rust 构建的 LLM 推理集群离散事件模拟器
1

章节 01

导读 / 主楼:Tokenmill:Rust 构建的 LLM 推理集群离散事件模拟器

一款专为大型语言模型推理集群设计的离散事件模拟器,支持多种调度器、并行策略、硬件配置和性能预测,帮助开发者在实际部署 GPU 前进行容量规划和 what-if 分析。

2

章节 02

原作者与来源


3

章节 03

项目背景与动机

随着大型语言模型(LLM)在各行各业的广泛应用,如何高效地部署和扩展推理基础设施成为了工程团队面临的核心挑战。GPU 资源价格昂贵且供应紧张,盲目采购硬件往往导致资源浪费或性能瓶颈。在实际投入生产环境之前,开发者迫切需要一种能够在本地模拟真实推理负载的工具,以便评估不同硬件配置、调度策略和优化技术的效果。

Tokenmill 正是为解决这一痛点而生。它是一款基于 Rust 开发的高性能离散事件模拟器,专门用于模拟 LLM 推理集群的行为。通过精确的数学建模和丰富的配置选项,Tokenmill 能够在实际部署前预测系统的延迟、吞吐量、内存使用和能源消耗等关键指标。


4

章节 04

核心功能与技术架构

Tokenmill 的设计目标是为容量规划、硬件选型和 what-if 分析提供可靠的决策依据。它内置了对现代 LLM 推理系统中几乎所有关键组件的支持:

5

章节 05

调度器支持

模拟器实现了多种业界主流的调度策略,包括连续批处理(Orca)、分块预填充(Sarathi)、以及支持抢占和重新计算的机制。这些调度器直接影响请求的排队延迟和 GPU 利用率,是性能调优的关键环节。

6

章节 06

并行策略建模

Tokenmill 支持张量并行(TP)、流水线并行(PP)、专家并行(EP)以及分离式预填充/解码架构。用户可以根据模型规模和硬件配置灵活组合这些并行策略,模拟从小规模单卡部署到大规模多节点集群的各种场景。

7

章节 07

硬件覆盖范围

项目内置了丰富的硬件预设,涵盖 NVIDIA Rubin(2026)、B200、H200、H100、A100、A10G,AMD MI300X/MI325X/MI355X,Google TPU v7-Ironwood/8T/8I,以及 Groq LPU-v1 和 Cerebras CS-3/WSE-3 等加速器。此外还支持 DGX H100/H200/B200 等集成系统的预设配置。

8

章节 08

性能预测维度

模拟器能够输出多维度的性能指标,包括 TTFT(首 Token 时间)和 TPOT(每个输出 Token 时间)的直方图统计(p50/p95/p99)、整体吞吐量、KV 缓存利用率、抢占次数、每芯片 TDP 功耗模型、总能耗以及基于 GPU 小时价格的成本估算。