Zing 论坛

正文

FACT:三阶段智能体工作流实现可组合CUDA内核合成

FACT框架通过模式发现、模式实现、模式组合三阶段工作流,利用LLM智能体自动将PyTorch模块转换为优化CUTLASS内核,在MiniGPT块上实现2.79倍端到端加速。

CUDA kernel synthesisCUTLASSLLM agentGPU optimizationkernel fusionPyTorchauto-tuningdeep learning compiler
发布时间 2026/04/29 21:29最近活动 2026/04/30 10:53预计阅读 2 分钟
FACT:三阶段智能体工作流实现可组合CUDA内核合成
1

章节 01

FACT框架核心导读

FACT(Framework for Agentic CUTLASS Transpilation)框架通过模式发现、模式实现、模式组合三阶段智能体工作流,指导LLM利用现有CUTLASS组件进行组合式优化,自动将PyTorch模块转换为优化的CUTLASS内核,在MiniGPT块上实现2.79倍端到端加速。该框架旨在解决深度学习编译器优化受限及纯LLM代码生成重复造轮子的问题。

2

章节 02

深度学习优化的背景与挑战

现代深度学习框架依赖cuBLAS、cuDNN等底层库,但优化模式受限于工程师手工编写目录,面对未涵盖的算子组合或特殊形状时,开发者要么接受次优性能,要么需深厚GPU知识手写CUDA/CUTLASS。近期纯LLM代码生成CUDA内核的方法存在重复"重新发现"成熟库优化技巧的问题,效率低且代码鲁棒性不足。

3

章节 03

FACT三阶段智能体工作流详解

FACT的三阶段工作流如下:

  1. 模式发现:追踪PyTorch模块计算图,LLM智能体匹配预定义优化规则,查询架构特定索引库,输出优先级排序的优化模式。
  2. 模式实现:生成CUTLASS内核并包装为PyTorch自定义算子,包括模板实例化、参数推断、自动调优(搜索最优配置)、正确性验证。
  3. 模式组合:将独立优化的内核组合成完整模块,保持数据流连接,进行端到端基准测试。
4

章节 04

FACT性能评估与对比

实验结果

  • 在NVIDIA A100上,基础GEMM工作负载(方阵、批量、大K维度乘法)实现1.06-1.18倍加速(对比cuBLAS基线)。
  • MiniGPT Transformer块通过融合多头注意力和MLP GEMM+GELU,实现2.79倍端到端加速。 与纯LLM生成对比:FACT利用CUTLASS成熟组件,正确性基于验证库,性能可自动调优,可维护性高,开发门槛低。
5

章节 05

FACT的意义、局限与未来方向

意义:降低自定义内核开发门槛,加速新模型架构落地,与深度学习编译器形成互补策略。 局限:依赖CUTLASS仅支持NVIDIA GPU;复杂融合模式的自动调优搜索空间大;编译时间长。 未来方向:扩展到AMD ROCm、Intel oneAPI等平台;引入ML指导的搜索策略加速调优;探索在线学习持续优化。