# Team Red LLM：AMD GPU 本地大模型推理的实战指南与基准数据库

> 社区维护的 AMD GPU 本地 LLM 部署指南，涵盖 ROCm/HIP 推理的详细步骤、常见陷阱、真实性能基准数据，支持消费级 Radeon、数据中心 Instinct 和 Strix Halo APU。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-02T00:07:30.000Z
- 最近活动: 2026-05-02T01:46:26.184Z
- 热度: 147.3
- 关键词: AMD GPU, ROCm, LLM inference, Radeon, local AI, benchmark, open source
- 页面链接: https://www.zingnex.cn/forum/thread/team-red-llm-amd-gpu
- Canonical: https://www.zingnex.cn/forum/thread/team-red-llm-amd-gpu
- Markdown 来源: ingested_event

---

## 项目背景：打破 CUDA 垄断的社区努力\n\n当前的 LLM 开源生态系统呈现出明显的 CUDA 中心化倾向。绝大多数教程假设用户拥有 NVIDIA 显卡，工具链在检测到 ROCm 时往往默默回退到 CPU 模式，而各种陷阱和解决方案则散落在 2023 年的 Reddit 帖子中。对于选择 AMD（Team Red）构建本地 AI 环境的用户而言，这种体验无异于"二等公民"。\n\nteam-red-llm 项目应运而生，它是一个社区维护的实战指南（cookbook）和基准数据库，专注于在 AMD 硬件上运行开源大语言模型。项目涵盖消费级 Radeon 显卡、数据中心 Instinct 加速器，以及最新的 Strix Halo APU，目标是让每个踩过 ROCm 陷阱的开发者都能在这里留下记录，让后来者少走弯路。\n\n## 核心内容结构\n\n项目采用模块化文档结构，将知识分散到专门的子目录中，便于维护和检索：\n\n### COOKBOOK.md：从零开始的部署指南\n\n这是项目的核心文档，提供逐步设置指南和团队遇到的所有陷阱。与一般的"hello world"教程不同，这里的每一步都经过真实硬件验证，并标注了可能出错的地方。\n\n### benchmarks/results.csv：真实的 tok/s 数据\n\n项目维护了一个公开的 CSV 数据库，记录不同 GPU、模型和量化配置下的实际 token 生成速度。这些数据来自社区贡献，而非厂商营销材料。\n\n### hardware/：硬件专属笔记\n\n每款 GPU 都有独立的文档，涵盖 BIOS 设置、驱动版本、散热问题和最佳模型选择。这种细粒度的硬件信息在其他 LLM 部署指南中极为罕见。\n\n### models/：模型专属配置\n\n针对特定模型的运行笔记，包括有效的启动参数、有问题的量化格式、架构特性等。例如，某些 MoE（混合专家）模型在 AMD GPU 上需要特定的 offload 参数才能正常运行。\n\n### scripts/：实用脚本集合\n\n提供 llama-server 的包装脚本、模型切换工具和基准测试运行器，简化日常操作流程。\n\n## 基准数据解读：RX 7900 GRE 性能实测\n\n项目提供了 RX 7900 GRE 16GB 显卡在多种配置下的实测数据，展示了 AMD GPU 在本地 LLM 推理中的真实表现：\n\n| GPU | 架构 | 模型 | 量化 | 模式 | 生成 tok/s | 提示 tok/s |\n|-----|------|------|------|------|-----------|-----------|\n| RX 7900 GRE 16GB | gfx1100 | Moonlight-16B-A3B-Instruct | Q6_K | Full GPU | 100.2 | 188.1 |\n| RX 7900 GRE 16GB | gfx1100 | gemma-4-26B-A4B-it | UD-Q4_K_M | MoE offload (-ncmoe 6) | 31.0 | 61.3 |\n| RX 7900 GRE 16GB | gfx1100 | Qwen3.6-35B-A3B-UD | Q4_K_S | MoE offload (-ncmoe 32) | 22.7 | 41.7 |\n| RX 7900 GRE 16GB | gfx1100 | gemma-4-26B-A4B-it | UD-Q6_K | MoE offload (-ncmoe 16) | 17.3 | 80.7 |\n\n### 模式说明\n\n**Full GPU 模式**：整个模型载入 VRAM，不使用 `-ncmoe` 参数。性能受限于 GPU 内存带宽（7900 GRE 约为 576 GB/s），可获得最高 tok/s。\n\n**MoE offload 模式**：模型过大无法完全放入 VRAM，通过 `-ncmoe N` 将前 N 层的 FFN 专家卸载到 CPU 内存。性能受限于 DDR5 带宽（约 89 GB/s），速度显著降低，但允许在 16GB 显卡上运行 30B+ 参数模型。\n\n这些数据揭示了本地 LLM 部署的关键权衡：完全 GPU 推理提供最佳速度，但受限于显存容量；offload 模式扩展了可运行模型的范围，但需要接受 3-5 倍的速度下降。\n\n## AMD GPU 架构与 ROCm 支持矩阵\n\n项目维护了详细的 GPU 架构代码和支持状态表，帮助用户快速判断自己的硬件是否适用：\n\n| 代码 | 架构家族 | 示例型号 | ROCm 支持状态 |\n|------|----------|----------|---------------|\n| gfx1100 | RDNA3 | RX 7900 XTX/XT/GRE | ✅ 成熟 |\n| gfx1101 | RDNA3 | RX 7800 XT, 7700 XT | ✅ 可用 |\n| gfx1102 | RDNA3 | RX 7600 | ⚠️ 部分支持 |\n| gfx1200/1201 | RDNA4 | RX 9070 XT, 9060 | ✅ 近期支持 |\n| gfx1150/1151 | Strix Halo | Ryzen AI Max+ 395 | ⚠️ 前沿支持 |\n| gfx942/950 | CDNA3 | MI300X, MI325X | ✅ 数据中心 |\n\n值得注意的是，最新的 Strix Halo APU（如 Ryzen AI Max+ 395）虽然硬件潜力巨大，但 ROCm 支持仍处于"前沿"状态，可能需要手动补丁或特定内核版本才能正常工作。\n\n## 社区贡献机制\n\n项目采用开放的社区贡献模式，通过多种渠道收集实战经验：\n\n- **基准提交**：通过 GitHub Issue 模板或直接向 benchmarks/results.csv 提交 PR\n- **陷阱记录**：将新发现的问题添加到 COOKBOOK.md 的相应章节\n- **模型测试**：在 models/ 目录下创建新的 .md 文件，记录有效的运行参数\n- **硬件扩展**：为不同的 GPU 型号添加 hardware/.md 文档\n\n项目还设有 GitHub Discussions 板块，用于讨论问题、硬件选购建议和"是否值得"类话题，将 Issues 保留给具体的 bug 报告和贡献。\n\n## 对本地 AI 生态的意义\n\nteam-red-llm 的存在具有重要的生态意义。在 NVIDIA 几乎垄断 AI 加速计算的背景下，AMD 用户往往被迫接受次优体验或转向云端 API。这个项目证明，通过社区协作和知识共享，AMD 硬件完全可以胜任本地 LLM 推理任务。\n\n对于预算有限但希望拥有本地 AI 能力的用户，AMD 显卡（尤其是二手市场的 RX 6000/7000 系列）提供了有竞争力的性价比选择。team-red-llm 降低了这些用户的入门门槛，让更多人能够参与本地 AI 部署的实践。\n\n## 许可证与参与方式\n\n项目采用 MIT 许可证，鼓励自由使用和修改。无论是拥有 AMD 显卡想要分享经验，还是正在考虑购买 Team Red 硬件进行本地 AI 实验，都可以从这个社区资源中获益。