章节 01
导读 / 主楼:Pawpile:让本地GPU集群轻松运行大语言模型的开源方案
一个支持多GPU混插、池化和OpenAI兼容API的本地化LLM部署工具,提供友好的Web界面和Docker化部署方案。
正文
一个支持多GPU混插、池化和OpenAI兼容API的本地化LLM部署工具,提供友好的Web界面和Docker化部署方案。
章节 01
一个支持多GPU混插、池化和OpenAI兼容API的本地化LLM部署工具,提供友好的Web界面和Docker化部署方案。
章节 02
章节 03
Pawpile的核心理念很简单:让你摆脱云端AI服务的token成本和隐私顾虑,在自己的硬件上自由运行大语言模型。无论你是想在笔记本上跑一个小模型,还是在配备多块高端显卡的工作站上运行大型模型,Pawpile都能让这个过程变得简单直观。
项目名称虽然有点俏皮(Pawpile直译为"爪子堆"),但它所解决的问题却是相当严肃的——本地LLM部署的复杂性。
章节 04
Pawpile最令人印象深刻的特点是其广泛的硬件兼容性:
章节 05
| 设备类型 | 支持情况 | 备注 |
|---|---|---|
| x86_64 CPU | ✅ 完全支持 | 基础推理能力 |
| NVIDIA GPU | ✅ CUDA加速 | 推荐用于高性能推理 |
| AMD GPU | ✅ Vulkan支持 | 通过Vulkan实现跨平台兼容 |
| Intel Arc GPU | ✅ Vulkan支持 | 新兴选择,性价比较高 |
章节 06
Pawpile的一大亮点是支持GPU池化。如果你有多块同厂商的GPU,可以将它们组合成一个资源池,从而运行单块GPU无法承载的大型模型。这种设计让硬件投资得到更充分的利用。
需要注意的是,一旦GPU加入池化,它将不能再单独使用,直到从池中移除。
章节 07
Pawpile采用Docker Compose进行部署,极大地简化了安装过程。项目目前处于beta阶段,更新非常频繁,因此推荐通过git clone方式获取最新代码:
# 克隆仓库
git clone https://github.com/michaelstaake/Pawpile.git
cd Pawpile
# 复制环境配置
cp .env.example .env
章节 08
根据你的硬件配置,可以选择不同的启动方式:
纯CPU模式(最基础的配置):
docker compose up -d --build
CPU + NVIDIA GPU(推荐用于有N卡的环境):
docker compose --profile nvidia up -d --build
CPU + Vulkan(AMD/Intel Arc)(A卡和Intel Arc用户的选择):
docker compose --profile vulkan up -d --build
混合模式(同时使用NVIDIA和Vulkan设备):
docker compose --profile nvidia --profile vulkan up -d --build
首次构建可能需要较长时间,因为需要根据选择的推理运行时编译llama-cpp。