章节 01
【导读】viiwork:让老旧AMD显卡变身LLM推理集群的负载均衡神器
viiwork是专为AMD Radeon VII等老旧gfx906架构显卡设计的开源LLM推理负载均衡器,可将多张16GB HBM2显存的显卡组成Mesh集群,提供OpenAI兼容API接口。它能挖掘legacy hardware潜力,为预算有限用户提供低成本推理方案,核心特性包括智能模型推荐、实时电费监控、Pipeline链式推理等。
正文
viiwork是一个专为AMD Radeon VII等老旧显卡设计的LLM推理负载均衡器,能将多张16GB HBM2显存的显卡组成集群,提供OpenAI兼容的API接口,让 legacy hardware 焕发新生。
章节 01
viiwork是专为AMD Radeon VII等老旧gfx906架构显卡设计的开源LLM推理负载均衡器,可将多张16GB HBM2显存的显卡组成Mesh集群,提供OpenAI兼容API接口。它能挖掘legacy hardware潜力,为预算有限用户提供低成本推理方案,核心特性包括智能模型推荐、实时电费监控、Pipeline链式推理等。
章节 02
viiwork诞生于作者想利用岳母车库中50张Radeon VII显卡的场景。Radeon VII、Instinct MI50/MI60等gfx906架构显卡虽已老旧,但配备16GB/32GB HBM2显存与1TB/s带宽。LLM推理瓶颈常为内存带宽而非计算力,故这些老显卡仍能胜任推理任务。
章节 03
viiwork支持单机多模型部署(如10张GPU分配给不同模型端口),更强大的Mesh集群模式可让多节点组成弹性集群,自动路由请求、跳过宕机节点。此外,Pipeline功能可链式组合多LLM步骤成虚拟模型,MCP服务器则能与AI助手无缝集成,提供本地推理工具。
章节 04
viiwork的setup-node.sh脚本含"I'm Feeling Lucky"模式,输入类别代码即可自动推荐适配硬件的模型。集成Nord Pool现货电价追踪,配置ENTSO-E API密钥后可实时监控节点电费消耗(每小时成本、每日累计等),方便大规模部署成本管理。
章节 05
viiwork针对16GB Radeon VII优化,推荐模型均控制在13GB安全显存内:
章节 06
viiwork Docker镜像固定llama.cpp版本,修补HIP FP8头文件适配gfx906(ROCm6.2+头文件问题)。部署要求简单:Linux系统(带amdgpu驱动)、支持GPU访问的Docker(/dev/kfd、/dev/dri),主机无需安装ROCm。
章节 07
viiwork含bench.sh(压力测试)、bench-sustained.sh(持续负载测试)等基准工具。项目通过挖掘老旧AMD显卡潜力,为预算有限用户提供可行推理方案,Mesh集群、智能推荐等特性体现实用主义,推动AI民主化,证明开源社区的创新能力。