正文

FACT：三阶段智能体工作流实现可组合CUDA内核合成

FACT框架通过模式发现、模式实现、模式组合三阶段工作流，利用LLM智能体自动将PyTorch模块转换为优化CUTLASS内核，在MiniGPT块上实现2.79倍端到端加速。

CUDA kernel synthesisCUTLASSLLM agentGPU optimizationkernel fusionPyTorchauto-tuningdeep learning compiler

发布时间 2026/04/29 21:29最近活动 2026/04/30 10:53预计阅读 2 分钟

章节 01

FACT框架核心导读

FACT（Framework for Agentic CUTLASS Transpilation）框架通过模式发现、模式实现、模式组合三阶段智能体工作流，指导LLM利用现有CUTLASS组件进行组合式优化，自动将PyTorch模块转换为优化的CUTLASS内核，在MiniGPT块上实现2.79倍端到端加速。该框架旨在解决深度学习编译器优化受限及纯LLM代码生成重复造轮子的问题。

章节 02

深度学习优化的背景与挑战

现代深度学习框架依赖cuBLAS、cuDNN等底层库，但优化模式受限于工程师手工编写目录，面对未涵盖的算子组合或特殊形状时，开发者要么接受次优性能，要么需深厚GPU知识手写CUDA/CUTLASS。近期纯LLM代码生成CUDA内核的方法存在重复"重新发现"成熟库优化技巧的问题，效率低且代码鲁棒性不足。

章节 03

FACT三阶段智能体工作流详解

FACT的三阶段工作流如下：

模式发现：追踪PyTorch模块计算图，LLM智能体匹配预定义优化规则，查询架构特定索引库，输出优先级排序的优化模式。
模式实现：生成CUTLASS内核并包装为PyTorch自定义算子，包括模板实例化、参数推断、自动调优（搜索最优配置）、正确性验证。
模式组合：将独立优化的内核组合成完整模块，保持数据流连接，进行端到端基准测试。

章节 04

FACT性能评估与对比

实验结果：

在NVIDIA A100上，基础GEMM工作负载（方阵、批量、大K维度乘法）实现1.06-1.18倍加速（对比cuBLAS基线）。
MiniGPT Transformer块通过融合多头注意力和MLP GEMM+GELU，实现2.79倍端到端加速。 与纯LLM生成对比：FACT利用CUTLASS成熟组件，正确性基于验证库，性能可自动调优，可维护性高，开发门槛低。

章节 05

FACT的意义、局限与未来方向

意义：降低自定义内核开发门槛，加速新模型架构落地，与深度学习编译器形成互补策略。局限：依赖CUTLASS仅支持NVIDIA GPU；复杂融合模式的自动调优搜索空间大；编译时间长。 未来方向：扩展到AMD ROCm、Intel oneAPI等平台；引入ML指导的搜索策略加速调优；探索在线学习持续优化。

FACT：三阶段智能体工作流实现可组合CUDA内核合成

FACT框架核心导读

深度学习优化的背景与挑战

FACT三阶段智能体工作流详解

FACT性能评估与对比

FACT的意义、局限与未来方向

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现