正文

VulkanForge：AMD RDNA4上的纯Rust大模型推理引擎

VulkanForge是一款专为AMD RDNA4 GPU设计的LLM推理引擎，采用纯Rust语言和Vulkan计算着色器实现，支持原生FP8推理，在消费级AMD硬件上实现卓越性能。

VulkanForgeAMD RDNA4LLM推理VulkanRustFP8推理ROCm开源AIGPU优化

发布时间 2026/05/06 22:39最近活动 2026/05/06 22:52预计阅读 5 分钟

章节 01

导读 / 主楼：VulkanForge：AMD RDNA4上的纯Rust大模型推理引擎

VulkanForge是一款专为AMD RDNA4 GPU设计的LLM推理引擎，采用纯Rust语言和Vulkan计算着色器实现，支持原生FP8推理，在消费级AMD硬件上实现卓越性能。

章节 02

引言：打破CUDA垄断的新选择

在大语言模型推理领域，NVIDIA CUDA长期以来占据主导地位。然而，随着AMD RDNA4架构的发布，以及开源图形API Vulkan的成熟，一个令人兴奋的新选择正在浮现。VulkanForge项目正是这一趋势的典型代表——它是一个专为AMD RDNA4 GPU设计的LLM推理引擎，完全基于Rust语言和Vulkan计算着色器构建，为开发者提供了摆脱CUDA依赖的新路径。

章节 03

项目背景与核心创新

VulkanForge的诞生源于对硬件多样性和开源生态的追求。该项目基于oldnordic的ROCmForge基础工作，在此基础上实现了大量创新和优化。项目的核心亮点在于：它是首个在消费级AMD硬件上通过Vulkan实现原生FP8 WMMA（Warp Matrix Multiply Accumulate）矩阵运算的推理引擎。

这一技术突破的意义不容小觑。FP8（8位浮点数）推理是当前大模型优化的重要方向，它可以显著降低内存占用和带宽需求，同时保持可接受的精度。VulkanForge通过Mesa 26.1+的shaderFloat8CooperativeMatrix扩展，在RDNA4 GPU上实现了这一功能，为AMD用户带来了与NVIDIA Tensor Core相媲美的计算能力。

章节 04

技术架构与实现细节

VulkanForge的技术栈选择体现了现代系统编程的最佳实践：

纯Rust实现：Rust语言以其内存安全性和零成本抽象著称，非常适合构建高性能系统软件。VulkanForge完全采用Rust编写，最终生成约14MB的静态二进制文件，除系统Vulkan加载器外无其他运行时依赖。

Vulkan计算着色器：与CUDA或ROCm不同，VulkanForge选择基于跨平台的Vulkan API。这意味着理论上一套代码可以在支持Vulkan的任何GPU上运行，极大地提高了代码的可移植性。

多格式支持：VulkanForge支持GGUF格式（llama.cpp的标准格式）和原生FP8 SafeTensors格式。特别值得注意的是，它可以直接加载HuggingFace的FP8 SafeTensors文件，无需在磁盘上进行FP16转换，节省了存储空间和加载时间。

自动缩放策略检测：针对FP8推理中常见的量化缩放问题，VulkanForge能够自动检测并处理三种缩放策略：per-tensor（张量级）、per-channel（通道级）和block-wise [128, 128]（块级）。

章节 05

性能表现：与业界标杆的对比

VulkanForge的性能数据令人印象深刻。在AMD Radeon RX 9070 XT（RDNA4旗舰显卡）上的测试显示：

GGUF解码性能：在单用户、batch=1场景下，VulkanForge对8B Llama模型的Q4_K_M格式解码速度达到121 tok/s，功耗效率为0.58 tok/s/W。相比之下，llama.cpp的Vulkan后端为114 tok/s（0.37 tok/s/W），ROCm后端仅为94 tok/s（0.30 tok/s/W）。

原生FP8解码：在FP8推理场景下，VulkanForge的优势更加明显。对于Llama-3.1-8B FP8模型，VulkanForge达到70 tok/s（平均166W），而vLLM 0.20.1 ROCm版本仅为53 tok/s（159W）。对于Qwen3-8B FP8，VulkanForge更是以62 tok/s（125W）大幅领先vLLM的22 tok/s（167W），性能提升高达267%。

功耗效率：VulkanForge在功耗效率方面表现突出，比llama.cpp高出2倍的tok/s/W指标。这对于关注能耗的数据中心和个人用户而言是重要优势。

章节 06

使用方式与部署指南

VulkanForge提供了简洁的CLI接口，支持聊天和基准测试两种模式：

# GGUF格式（兼容Mesa 26.0.6+）
vulkanforge chat --model ~/models/Qwen3-8B-Q4_K_M.gguf

# 原生FP8 SafeTensors（Mesa 26.0.6+，BF16转换路径）
VULKANFORGE_ENABLE_FP8=1 vulkanforge chat \
  --model ~/models/Qwen3-8B-FP8/ \
  --tokenizer-from ~/models/Qwen3-8B-Q4_K_M.gguf

# 原生FP8 WMMA（Mesa 26.1+，预填充性能提升45-58%）
VF_FP8_NATIVE_WMMA=1 VULKANFORGE_ENABLE_FP8=1 vulkanforge chat \
  --model ~/models/Qwen3-8B-FP8/ \
  --tokenizer-from ~/models/Qwen3-8B-Q4_K_M.gguf

从源码构建也非常简单，只需Rust 1.85+和Vulkan头文件：

cargo build --release

章节 07

驱动要求与兼容性

VulkanForge对Mesa版本有明确要求：

Mesa 26.0.6+：完整支持GGUF和FP8 SafeTensors（通过BF16转换WMMA路径）
Mesa 26.1+：额外支持shaderFloat8CooperativeMatrix扩展，可安全启用VF_FP8_NATIVE_WMMA=1

对于14B以上大模型，建议在kernel命令行设置amdgpu.lockup_timeout=10000,10000，因为默认的2秒计算超时对于长预填充提交来说太短。

章节 08

当前局限与未来方向

尽管VulkanForge展现了令人振奋的技术实力，项目文档也坦诚地列出了当前限制：

单流限制：目前仅支持单流推理，不支持批处理或并发会话
解码性能：解码速度约为llama.cpp Vulkan的0.80-1.06倍（模型相关），协处理器矩阵运算目前仅用于预填充
预填充差距：FP8预填充性能仍落后于ROCm专用内核（如vLLM的ROCmFP8ScaledMMLinearKernel）
分词器支持：Mistral/Llama-2 SPM分词器尚未接入FP8 SafeTensors路径

这些限制反映了项目的早期状态，也为后续开发指明了方向。

VulkanForge：AMD RDNA4上的纯Rust大模型推理引擎

导读 / 主楼：VulkanForge：AMD RDNA4上的纯Rust大模型推理引擎

引言：打破CUDA垄断的新选择

项目背景与核心创新

技术架构与实现细节

性能表现：与业界标杆的对比

使用方式与部署指南

驱动要求与兼容性

当前局限与未来方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统