Zing 论坛

正文

viiwork:让老旧AMD显卡变身LLM推理集群的负载均衡神器

viiwork是一个专为AMD Radeon VII等老旧显卡设计的LLM推理负载均衡器,能将多张16GB HBM2显存的显卡组成集群,提供OpenAI兼容的API接口,让 legacy hardware 焕发新生。

viiworkAMDRadeon VIILLM推理负载均衡ROCmllama.cppGPU集群开源Mesh集群
发布时间 2026/04/06 01:43最近活动 2026/04/06 01:51预计阅读 2 分钟
viiwork:让老旧AMD显卡变身LLM推理集群的负载均衡神器
1

章节 01

【导读】viiwork:让老旧AMD显卡变身LLM推理集群的负载均衡神器

viiwork是专为AMD Radeon VII等老旧gfx906架构显卡设计的开源LLM推理负载均衡器,可将多张16GB HBM2显存的显卡组成Mesh集群,提供OpenAI兼容API接口。它能挖掘legacy hardware潜力,为预算有限用户提供低成本推理方案,核心特性包括智能模型推荐、实时电费监控、Pipeline链式推理等。

2

章节 02

项目背景:岳母车库里的50张显卡与老硬件的价值发现

viiwork诞生于作者想利用岳母车库中50张Radeon VII显卡的场景。Radeon VII、Instinct MI50/MI60等gfx906架构显卡虽已老旧,但配备16GB/32GB HBM2显存与1TB/s带宽。LLM推理瓶颈常为内存带宽而非计算力,故这些老显卡仍能胜任推理任务。

3

章节 03

核心架构与功能:Mesh集群与多场景支持

viiwork支持单机多模型部署(如10张GPU分配给不同模型端口),更强大的Mesh集群模式可让多节点组成弹性集群,自动路由请求、跳过宕机节点。此外,Pipeline功能可链式组合多LLM步骤成虚拟模型,MCP服务器则能与AI助手无缝集成,提供本地推理工具。

4

章节 04

实用特性:智能推荐与成本监控

viiwork的setup-node.sh脚本含"I'm Feeling Lucky"模式,输入类别代码即可自动推荐适配硬件的模型。集成Nord Pool现货电价追踪,配置ENTSO-E API密钥后可实时监控节点电费消耗(每小时成本、每日累计等),方便大规模部署成本管理。

5

章节 05

推荐模型与量化策略:适配16GB显存的最优选择

viiwork针对16GB Radeon VII优化,推荐模型均控制在13GB安全显存内:

  • 编程模型:Qwen2.5-Coder-14B(Q6_K)、Devstral-Small-24B(Q3_K_M)等;
  • 文本生成:Qwen3-32B(UD-Q2_K_XL)、Gemma-3-27B-IT(Q3_K_S)等;
  • Gemma4系列:Gemma-4-26B-A4B-IT(UD-Q3_K_M)(MoE架构)、Gemma4-E4B-IT(Q8_0)等。
6

章节 06

技术细节与部署:ROCm兼容与Docker简化

viiwork Docker镜像固定llama.cpp版本,修补HIP FP8头文件适配gfx906(ROCm6.2+头文件问题)。部署要求简单:Linux系统(带amdgpu驱动)、支持GPU访问的Docker(/dev/kfd、/dev/dri),主机无需安装ROCm。

7

章节 07

性能与总结:开源创新让老硬件焕发新生

viiwork含bench.sh(压力测试)、bench-sustained.sh(持续负载测试)等基准工具。项目通过挖掘老旧AMD显卡潜力,为预算有限用户提供可行推理方案,Mesh集群、智能推荐等特性体现实用主义,推动AI民主化,证明开源社区的创新能力。