正文

FlashRT：面向实时AI工作负载的高性能推理引擎

FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎，支持VLA机器人控制模型和LLM推理，通过手写CUDA内核和静态图捕获实现极低延迟。

FlashRTCUDA实时推理VLA机器人控制LLM推理静态图边缘计算JetsonRTX 5090

发布时间 2026/06/20 01:08最近活动 2026/06/20 01:23预计阅读 3 分钟

章节 01

导读 / 主楼：FlashRT：面向实时AI工作负载的高性能推理引擎

章节 02

原作者与来源

原作者/维护者: flashrt-project 组织
来源平台: GitHub
原始标题: FlashRT
原始链接: https://github.com/flashrt-project/FlashRT
发布时间: 2026年6月19日

章节 03

背景与挑战

当前主流的AI推理工具如TensorRT和vLLM分别针对不同的工作负载场景设计：TensorRT专注于将模型编译为冻结引擎以支持战术搜索，vLLM则面向大批量LLM服务。然而，对于小批量实时推理场景——尤其是机器人视觉-语言-动作（VLA）模型和实时LLM服务——现有的推理框架往往存在编译开销大、启动延迟高、难以快速适应模型变化等问题。

FlashRT应运而生，填补了这一空白。它专门针对小批量、延迟敏感的实时推理场景，通过手写CUDA内核和静态图捕获技术，实现了无需编译、即插即用的推理体验。

章节 04

1. 手写CUDA内核库

FlashRT的核心优势在于其手写CUDA内核，覆盖标准Transformer、DiT和SigLIP原语所需的所有内存受限操作：

归一化与激活层: LayerNorm、RMSNorm、SwiGLU等
融合算子: 残差+归一化+量化融合、RoPE/qkv-split
量化支持: FP8、NVFP4 GEMM、cuBLASLt FP8
注意力机制: 厂商优化的Flash-Attention 2、Thor CUTLASS FMHA

这些内核专门针对内存带宽瓶颈进行优化，而非计算密集型操作（GEMM/注意力），后者则委托给cuBLASLt、CUTLASS和厂商FA2实现。

章节 05

2. 静态CUDA图捕获

FlashRT将整个前向传播过程捕获为静态CUDA图，实现零Python开销的图重放。这一设计带来显著优势：

首次调用: 约3秒（校准+CUDA图捕获）
后续调用: 仅44ms图重放（Thor平台）
无引擎文件: 无需导出ONNX或编译引擎
驱动升级免疫: CUDA驱动升级、GPU更换、提示词变化均无需重建

章节 06

3. 硬件自动分发

FlashRT在load_model()时自动检测GPU能力，路由到最佳匹配的后端：

计算能力	GPU	后端
SM110 (11.0)	Jetson AGX Thor	`flash_rt.hardware.thor.*`
SM120 (12.0)	RTX 5090 Blackwell	`flash_rt.hardware.rtx.*`
SM89 (8.9)	RTX 4090 Ada	`flash_rt.hardware.rtx.*`

用户代码无需感知底层硬件，同一套代码可在Jetson Thor、RTX 5090、RTX 4090上无缝运行。

章节 07

VLA模型支持

FlashRT的旗舰集成是生产级VLA控制，支持以下模型：

模型	Thor FP8延迟	RTX 5090 FP8延迟
Pi0.5	44.0 ms (23 Hz)	17.58 ms (57 Hz)
Pi0	45.8 ms (22 Hz)	18.43 ms (54 Hz)
GROOT N1.6	41 ms (24 Hz)	12.53 ms (80 Hz)
Pi0-FAST	8.1 ms/token	2.39 ms/token

章节 08

LLM支持

FlashRT同样支持纯文本LLM推理：

Qwen3.6-27B NVFP4: 在RTX 5090上支持256K上下文，145 tok/s预热解码
Qwen3-8B NVFP4: P=64时9.1ms预填充，150 tok/s解码

FlashRT：面向实时AI工作负载的高性能推理引擎

导读 / 主楼：FlashRT：面向实时AI工作负载的高性能推理引擎

原作者与来源

背景与挑战

1. 手写CUDA内核库

2. 静态CUDA图捕获

3. 硬件自动分发

VLA模型支持

LLM支持

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎