章节 01
导读 / 主楼:FlashRT:面向实时AI工作负载的高性能推理引擎
FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎,支持VLA机器人控制模型和LLM推理,通过手写CUDA内核和静态图捕获实现极低延迟。
正文
FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎,支持VLA机器人控制模型和LLM推理,通过手写CUDA内核和静态图捕获实现极低延迟。
章节 01
FlashRT是一款专为小批量、延迟敏感的AI工作负载设计的高性能实时推理引擎,支持VLA机器人控制模型和LLM推理,通过手写CUDA内核和静态图捕获实现极低延迟。
章节 02
章节 03
当前主流的AI推理工具如TensorRT和vLLM分别针对不同的工作负载场景设计:TensorRT专注于将模型编译为冻结引擎以支持战术搜索,vLLM则面向大批量LLM服务。然而,对于小批量实时推理场景——尤其是机器人视觉-语言-动作(VLA)模型和实时LLM服务——现有的推理框架往往存在编译开销大、启动延迟高、难以快速适应模型变化等问题。
FlashRT应运而生,填补了这一空白。它专门针对小批量、延迟敏感的实时推理场景,通过手写CUDA内核和静态图捕获技术,实现了无需编译、即插即用的推理体验。
章节 04
FlashRT的核心优势在于其手写CUDA内核,覆盖标准Transformer、DiT和SigLIP原语所需的所有内存受限操作:
这些内核专门针对内存带宽瓶颈进行优化,而非计算密集型操作(GEMM/注意力),后者则委托给cuBLASLt、CUTLASS和厂商FA2实现。
章节 05
FlashRT将整个前向传播过程捕获为静态CUDA图,实现零Python开销的图重放。这一设计带来显著优势:
章节 06
FlashRT在load_model()时自动检测GPU能力,路由到最佳匹配的后端:
| 计算能力 | GPU | 后端 |
|---|---|---|
| SM110 (11.0) | Jetson AGX Thor | flash_rt.hardware.thor.* |
| SM120 (12.0) | RTX 5090 Blackwell | flash_rt.hardware.rtx.* |
| SM89 (8.9) | RTX 4090 Ada | flash_rt.hardware.rtx.* |
用户代码无需感知底层硬件,同一套代码可在Jetson Thor、RTX 5090、RTX 4090上无缝运行。
章节 07
FlashRT的旗舰集成是生产级VLA控制,支持以下模型:
| 模型 | Thor FP8延迟 | RTX 5090 FP8延迟 |
|---|---|---|
| Pi0.5 | 44.0 ms (23 Hz) | 17.58 ms (57 Hz) |
| Pi0 | 45.8 ms (22 Hz) | 18.43 ms (54 Hz) |
| GROOT N1.6 | 41 ms (24 Hz) | 12.53 ms (80 Hz) |
| Pi0-FAST | 8.1 ms/token | 2.39 ms/token |
章节 08
FlashRT同样支持纯文本LLM推理: