正文

Pawpile：让本地GPU集群轻松运行大语言模型的开源方案

一个支持多GPU混插、池化和OpenAI兼容API的本地化LLM部署工具，提供友好的Web界面和Docker化部署方案。

LLM本地部署GPU开源项目DockerOpenAI API隐私推理优化GGUF

发布时间 2026/05/28 02:15最近活动 2026/05/28 02:20预计阅读 3 分钟

章节 01

导读 / 主楼：Pawpile：让本地GPU集群轻松运行大语言模型的开源方案

一个支持多GPU混插、池化和OpenAI兼容API的本地化LLM部署工具，提供友好的Web界面和Docker化部署方案。

章节 02

原作者与来源

原作者/维护者: michaelstaake
来源平台: GitHub
原始标题: Pawpile
原始链接: https://github.com/michaelstaake/Pawpile
发布时间: 2026年5月27日

章节 03

项目定位与核心价值

Pawpile的核心理念很简单：让你摆脱云端AI服务的token成本和隐私顾虑，在自己的硬件上自由运行大语言模型。无论你是想在笔记本上跑一个小模型，还是在配备多块高端显卡的工作站上运行大型模型，Pawpile都能让这个过程变得简单直观。

项目名称虽然有点俏皮（Pawpile直译为"爪子堆"），但它所解决的问题却是相当严肃的——本地LLM部署的复杂性。

章节 04

硬件支持：前所未有的灵活性

Pawpile最令人印象深刻的特点是其广泛的硬件兼容性：

章节 05

支持的设备类型

设备类型	支持情况	备注
x86_64 CPU	✅ 完全支持	基础推理能力
NVIDIA GPU	✅ CUDA加速	推荐用于高性能推理
AMD GPU	✅ Vulkan支持	通过Vulkan实现跨平台兼容
Intel Arc GPU	✅ Vulkan支持	新兴选择，性价比较高

章节 06

GPU池化技术

Pawpile的一大亮点是支持GPU池化。如果你有多块同厂商的GPU，可以将它们组合成一个资源池，从而运行单块GPU无法承载的大型模型。这种设计让硬件投资得到更充分的利用。

需要注意的是，一旦GPU加入池化，它将不能再单独使用，直到从池中移除。

章节 07

部署体验：Docker化一键启动

Pawpile采用Docker Compose进行部署，极大地简化了安装过程。项目目前处于beta阶段，更新非常频繁，因此推荐通过git clone方式获取最新代码：

# 克隆仓库
git clone https://github.com/michaelstaake/Pawpile.git
cd Pawpile

# 复制环境配置
cp .env.example .env

章节 08

灵活的启动配置

根据你的硬件配置，可以选择不同的启动方式：

纯CPU模式（最基础的配置）：

docker compose up -d --build

CPU + NVIDIA GPU（推荐用于有N卡的环境）：

docker compose --profile nvidia up -d --build

CPU + Vulkan（AMD/Intel Arc）（A卡和Intel Arc用户的选择）：

docker compose --profile vulkan up -d --build

混合模式（同时使用NVIDIA和Vulkan设备）：

docker compose --profile nvidia --profile vulkan up -d --build

首次构建可能需要较长时间，因为需要根据选择的推理运行时编译llama-cpp。

Pawpile：让本地GPU集群轻松运行大语言模型的开源方案

导读 / 主楼：Pawpile：让本地GPU集群轻松运行大语言模型的开源方案

原作者与来源

项目定位与核心价值

硬件支持：前所未有的灵活性

支持的设备类型

GPU池化技术

部署体验：Docker化一键启动

灵活的启动配置

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统