Zing 论坛

正文

AMD-NFS:打破CUDA垄断的原生LLM推理栈

AMD-NFS是一个从零构建的LLM推理与服务栈,旨在绕过CUDA生态锁定,原生支持ROCm/HIP,并替代vLLM、llama.cpp等传统服务软件。

AMDROCmHIPLLM推理CUDA替代GPU计算开源AI推理优化
发布时间 2026/04/24 14:43最近活动 2026/04/24 14:50预计阅读 2 分钟
AMD-NFS:打破CUDA垄断的原生LLM推理栈
1

章节 01

导读 / 主楼:AMD-NFS:打破CUDA垄断的原生LLM推理栈

AMD-NFS是一个从零构建的LLM推理与服务栈,旨在绕过CUDA生态锁定,原生支持ROCm/HIP,并替代vLLM、llama.cpp等传统服务软件。

2

章节 02

背景:CUDA生态的垄断困境

当前的大语言模型(LLM)推理生态几乎被NVIDIA的CUDA所主导。从vLLM到llama.cpp,从Triton推理服务器到各类优化框架,绝大多数开源项目都优先甚至仅支持CUDA平台。这种生态锁定不仅限制了硬件选择的多样性,也让AMD等竞争对手的GPU在AI推理领域长期处于边缘地位。

对于使用AMD GPU的开发者来说,这意味着要么放弃性能优化,要么在兼容层上挣扎。ROCm作为AMD的开源GPU计算平台,虽然提供了HIP(Heterogeneous-compute Interface for Portability)来模拟CUDA接口,但大多数现有软件栈并未针对AMD硬件进行深度优化。

3

章节 03

项目概述:AMD原生推理栈的愿景

AMD-NFS(AMD-Native Inference Stack)正是为了解决这一痛点而诞生的。这是一个从零开始构建的LLM推理与服务栈,其核心目标是完全绕过CUDA生态锁定,原生支持AMD的ROCm/HIP平台,并提供一个统一、高性能的替代方案。

与在现有CUDA代码基础上添加HIP兼容层的做法不同,AMD-NFS选择了一条更具野心的道路:重新设计整个推理栈,使其从底层就针对AMD GPU架构进行优化。这包括内存管理、内核调度、并行计算模式等各个层面的深度定制。

4

章节 04

技术架构:分层设计的模块化栈

AMD-NFS采用了清晰的分层架构设计,将系统划分为多个独立但协同的模块:

5

章节 05

C语言底层:内存与内核管理

最底层使用C语言实现,包括slab分配器(slab allocator)和HIP内核存根(kernel stubs)。slab分配器是一种高效的内存管理技术,预先分配固定大小的内存块,减少运行时的分配开销,这对于需要频繁内存操作的LLM推理至关重要。HIP内核存根则为后续的GPU计算提供了基础接口。

6

章节 06

C++引擎核心

中间层采用C++构建引擎核心骨架,负责模型加载、推理调度、批处理管理等关键功能。C++的性能优势和对硬件的精细控制能力,使其成为构建高性能推理引擎的理想选择。

7

章节 07

Python绑定层

通过Cython提供Python绑定,让开发者可以使用熟悉的Python接口调用底层的高性能实现。这一层还包含setup.py用于便捷的安装部署,降低了使用门槛。

8

章节 08

Go语言服务层

最上层使用Go语言构建服务器骨架,利用Go在并发处理和网络服务方面的优势,提供高吞吐量的模型服务接口。Go的轻量级协程(goroutine)模型特别适合处理大量并发的推理请求。