Zing 论坛

正文

FlashRT:面向实时AI工作负载的高性能推理引擎

FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎,支持VLA机器人控制模型和LLM推理,通过手写CUDA内核和静态图捕获实现极低延迟。

FlashRTCUDA实时推理VLA机器人控制LLM推理静态图边缘计算JetsonRTX 5090
发布时间 2026/06/20 01:08最近活动 2026/06/20 01:23预计阅读 3 分钟
FlashRT:面向实时AI工作负载的高性能推理引擎
1

章节 01

导读 / 主楼:FlashRT:面向实时AI工作负载的高性能推理引擎

FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎,支持VLA机器人控制模型和LLM推理,通过手写CUDA内核和静态图捕获实现极低延迟。

3

章节 03

背景与挑战

当前主流的AI推理工具如TensorRT和vLLM分别针对不同的工作负载场景设计:TensorRT专注于将模型编译为冻结引擎以支持战术搜索,vLLM则面向大批量LLM服务。然而,对于小批量实时推理场景——尤其是机器人视觉-语言-动作(VLA)模型和实时LLM服务——现有的推理框架往往存在编译开销大、启动延迟高、难以快速适应模型变化等问题。

FlashRT应运而生,填补了这一空白。它专门针对小批量、延迟敏感的实时推理场景,通过手写CUDA内核和静态图捕获技术,实现了无需编译、即插即用的推理体验。

4

章节 04

1. 手写CUDA内核库

FlashRT的核心优势在于其手写CUDA内核,覆盖标准Transformer、DiT和SigLIP原语所需的所有内存受限操作:

  • 归一化与激活层: LayerNorm、RMSNorm、SwiGLU等
  • 融合算子: 残差+归一化+量化融合、RoPE/qkv-split
  • 量化支持: FP8、NVFP4 GEMM、cuBLASLt FP8
  • 注意力机制: 厂商优化的Flash-Attention 2、Thor CUTLASS FMHA

这些内核专门针对内存带宽瓶颈进行优化,而非计算密集型操作(GEMM/注意力),后者则委托给cuBLASLt、CUTLASS和厂商FA2实现。

5

章节 05

2. 静态CUDA图捕获

FlashRT将整个前向传播过程捕获为静态CUDA图,实现零Python开销的图重放。这一设计带来显著优势:

  • 首次调用: 约3秒(校准+CUDA图捕获)
  • 后续调用: 仅44ms图重放(Thor平台)
  • 无引擎文件: 无需导出ONNX或编译引擎
  • 驱动升级免疫: CUDA驱动升级、GPU更换、提示词变化均无需重建
6

章节 06

3. 硬件自动分发

FlashRT在load_model()时自动检测GPU能力,路由到最佳匹配的后端:

计算能力 GPU 后端
SM110 (11.0) Jetson AGX Thor flash_rt.hardware.thor.*
SM120 (12.0) RTX 5090 Blackwell flash_rt.hardware.rtx.*
SM89 (8.9) RTX 4090 Ada flash_rt.hardware.rtx.*

用户代码无需感知底层硬件,同一套代码可在Jetson Thor、RTX 5090、RTX 4090上无缝运行。

7

章节 07

VLA模型支持

FlashRT的旗舰集成是生产级VLA控制,支持以下模型:

模型 Thor FP8延迟 RTX 5090 FP8延迟
Pi0.5 44.0 ms (23 Hz) 17.58 ms (57 Hz)
Pi0 45.8 ms (22 Hz) 18.43 ms (54 Hz)
GROOT N1.6 41 ms (24 Hz) 12.53 ms (80 Hz)
Pi0-FAST 8.1 ms/token 2.39 ms/token
8

章节 08

LLM支持

FlashRT同样支持纯文本LLM推理:

  • Qwen3.6-27B NVFP4: 在RTX 5090上支持256K上下文,145 tok/s预热解码
  • Qwen3-8B NVFP4: P=64时9.1ms预填充,150 tok/s解码