正文

viiwork：让老旧AMD显卡变身LLM推理集群的负载均衡神器

viiwork是一个专为AMD Radeon VII等老旧显卡设计的LLM推理负载均衡器，能将多张16GB HBM2显存的显卡组成集群，提供OpenAI兼容的API接口，让 legacy hardware 焕发新生。

viiworkAMDRadeon VIILLM推理负载均衡ROCmllama.cppGPU集群开源Mesh集群

发布时间 2026/04/06 01:43最近活动 2026/04/06 01:51预计阅读 2 分钟

章节 01

【导读】viiwork：让老旧AMD显卡变身LLM推理集群的负载均衡神器

viiwork是专为AMD Radeon VII等老旧gfx906架构显卡设计的开源LLM推理负载均衡器，可将多张16GB HBM2显存的显卡组成Mesh集群，提供OpenAI兼容API接口。它能挖掘legacy hardware潜力，为预算有限用户提供低成本推理方案，核心特性包括智能模型推荐、实时电费监控、Pipeline链式推理等。

章节 02

项目背景：岳母车库里的50张显卡与老硬件的价值发现

viiwork诞生于作者想利用岳母车库中50张Radeon VII显卡的场景。Radeon VII、Instinct MI50/MI60等gfx906架构显卡虽已老旧，但配备16GB/32GB HBM2显存与1TB/s带宽。LLM推理瓶颈常为内存带宽而非计算力，故这些老显卡仍能胜任推理任务。

章节 03

核心架构与功能：Mesh集群与多场景支持

viiwork支持单机多模型部署（如10张GPU分配给不同模型端口），更强大的Mesh集群模式可让多节点组成弹性集群，自动路由请求、跳过宕机节点。此外，Pipeline功能可链式组合多LLM步骤成虚拟模型，MCP服务器则能与AI助手无缝集成，提供本地推理工具。

章节 04

实用特性：智能推荐与成本监控

viiwork的setup-node.sh脚本含"I'm Feeling Lucky"模式，输入类别代码即可自动推荐适配硬件的模型。集成Nord Pool现货电价追踪，配置ENTSO-E API密钥后可实时监控节点电费消耗（每小时成本、每日累计等），方便大规模部署成本管理。

章节 05

推荐模型与量化策略：适配16GB显存的最优选择

viiwork针对16GB Radeon VII优化，推荐模型均控制在13GB安全显存内：

编程模型：Qwen2.5-Coder-14B(Q6_K)、Devstral-Small-24B(Q3_K_M)等；
文本生成：Qwen3-32B(UD-Q2_K_XL)、Gemma-3-27B-IT(Q3_K_S)等；
Gemma4系列：Gemma-4-26B-A4B-IT(UD-Q3_K_M)（MoE架构）、Gemma4-E4B-IT(Q8_0)等。

章节 06

技术细节与部署：ROCm兼容与Docker简化

viiwork Docker镜像固定llama.cpp版本，修补HIP FP8头文件适配gfx906（ROCm6.2+头文件问题）。部署要求简单：Linux系统（带amdgpu驱动）、支持GPU访问的Docker（/dev/kfd、/dev/dri），主机无需安装ROCm。

章节 07

性能与总结：开源创新让老硬件焕发新生

viiwork含bench.sh（压力测试）、bench-sustained.sh（持续负载测试）等基准工具。项目通过挖掘老旧AMD显卡潜力，为预算有限用户提供可行推理方案，Mesh集群、智能推荐等特性体现实用主义，推动AI民主化，证明开源社区的创新能力。

viiwork：让老旧AMD显卡变身LLM推理集群的负载均衡神器

【导读】viiwork：让老旧AMD显卡变身LLM推理集群的负载均衡神器

项目背景：岳母车库里的50张显卡与老硬件的价值发现

核心架构与功能：Mesh集群与多场景支持

实用特性：智能推荐与成本监控

推荐模型与量化策略：适配16GB显存的最优选择

技术细节与部署：ROCm兼容与Docker简化

性能与总结：开源创新让老硬件焕发新生

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统