正文

AMD-NFS：打破CUDA垄断的原生LLM推理栈

AMD-NFS是一个从零构建的LLM推理与服务栈，旨在绕过CUDA生态锁定，原生支持ROCm/HIP，并替代vLLM、llama.cpp等传统服务软件。

AMDROCmHIPLLM推理CUDA替代GPU计算开源AI推理优化

发布时间 2026/04/24 14:43最近活动 2026/04/24 14:50预计阅读 2 分钟

章节 01

导读 / 主楼：AMD-NFS：打破CUDA垄断的原生LLM推理栈

AMD-NFS是一个从零构建的LLM推理与服务栈，旨在绕过CUDA生态锁定，原生支持ROCm/HIP，并替代vLLM、llama.cpp等传统服务软件。

章节 02

背景：CUDA生态的垄断困境

当前的大语言模型（LLM）推理生态几乎被NVIDIA的CUDA所主导。从vLLM到llama.cpp，从Triton推理服务器到各类优化框架，绝大多数开源项目都优先甚至仅支持CUDA平台。这种生态锁定不仅限制了硬件选择的多样性，也让AMD等竞争对手的GPU在AI推理领域长期处于边缘地位。

对于使用AMD GPU的开发者来说，这意味着要么放弃性能优化，要么在兼容层上挣扎。ROCm作为AMD的开源GPU计算平台，虽然提供了HIP（Heterogeneous-compute Interface for Portability）来模拟CUDA接口，但大多数现有软件栈并未针对AMD硬件进行深度优化。

章节 03

项目概述：AMD原生推理栈的愿景

AMD-NFS（AMD-Native Inference Stack）正是为了解决这一痛点而诞生的。这是一个从零开始构建的LLM推理与服务栈，其核心目标是完全绕过CUDA生态锁定，原生支持AMD的ROCm/HIP平台，并提供一个统一、高性能的替代方案。

与在现有CUDA代码基础上添加HIP兼容层的做法不同，AMD-NFS选择了一条更具野心的道路：重新设计整个推理栈，使其从底层就针对AMD GPU架构进行优化。这包括内存管理、内核调度、并行计算模式等各个层面的深度定制。

章节 04

技术架构：分层设计的模块化栈

AMD-NFS采用了清晰的分层架构设计，将系统划分为多个独立但协同的模块：

章节 05

C语言底层：内存与内核管理

最底层使用C语言实现，包括slab分配器（slab allocator）和HIP内核存根（kernel stubs）。slab分配器是一种高效的内存管理技术，预先分配固定大小的内存块，减少运行时的分配开销，这对于需要频繁内存操作的LLM推理至关重要。HIP内核存根则为后续的GPU计算提供了基础接口。

章节 06

C++引擎核心

中间层采用C++构建引擎核心骨架，负责模型加载、推理调度、批处理管理等关键功能。C++的性能优势和对硬件的精细控制能力，使其成为构建高性能推理引擎的理想选择。

章节 07

Python绑定层

通过Cython提供Python绑定，让开发者可以使用熟悉的Python接口调用底层的高性能实现。这一层还包含setup.py用于便捷的安装部署，降低了使用门槛。

章节 08

Go语言服务层

最上层使用Go语言构建服务器骨架，利用Go在并发处理和网络服务方面的优势，提供高吞吐量的模型服务接口。Go的轻量级协程（goroutine）模型特别适合处理大量并发的推理请求。

AMD-NFS：打破CUDA垄断的原生LLM推理栈

导读 / 主楼：AMD-NFS：打破CUDA垄断的原生LLM推理栈

背景：CUDA生态的垄断困境

项目概述：AMD原生推理栈的愿景

技术架构：分层设计的模块化栈

C语言底层：内存与内核管理

C++引擎核心

Python绑定层

Go语言服务层

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现