章节 01
导读 / 主楼:Intel Arc Pro B70多卡推理服务器搭建指南
详细介绍如何使用Intel Arc Pro B70 GPU搭建高性能LLM推理服务器,涵盖硬件配置、BIOS设置、自动化部署脚本及性能优化。
正文
详细介绍如何使用Intel Arc Pro B70 GPU搭建高性能LLM推理服务器,涵盖硬件配置、BIOS设置、自动化部署脚本及性能优化。
章节 01
详细介绍如何使用Intel Arc Pro B70 GPU搭建高性能LLM推理服务器,涵盖硬件配置、BIOS设置、自动化部署脚本及性能优化。
章节 02
该项目由Hal9000AIML开源社区维护,旨在提供一套完整的自动化部署方案。项目核心目标包括:
章节 03
| 组件 | 规格 |
|---|---|
| 主板 | ASUS ROG Zenith Extreme X399 |
| CPU | AMD Threadripper 1900X (8核16线程) |
| 内存 | 16GB DDR4-3200(建议升级至128GB) |
| GPU | 4x Intel Arc Pro B70 (共128GB显存) |
| 启动盘 | 256GB NVMe SSD |
| 电源 | EVGA SuperNOVA 1600 G+ |
| 操作系统 | Ubuntu Server 24.04 LTS (内核6.17+) |
章节 04
章节 05
以Gemma 4 26B-A4B模型(MoE架构,3.8B激活参数)为例:
4卡B70配置,TP=4,16GB内存+64GB交换分区:
| 并发数 | 总吞吐量 | 单请求吞吐量 |
|---|---|---|
| 1 | 5.7 tok/s | 5.7 tok/s |
| 4 | 18.6 tok/s | ~5.5 tok/s |
| 8 | 37.0 tok/s | ~5.2 tok/s |
128GB内存配置的理论预测:
| 并发数 | 预估吞吐量 |
|---|---|
| 1 | 25-35 tok/s |
| 4 | 90-120 tok/s |
| 8 | 160-220 tok/s |
| 16 | 280-350 tok/s |
| 64 | 420-500 tok/s |
| 128 | 480-540 tok/s |
从数据可以看出,内存配置对性能影响巨大。16GB内存严重限制了系统性能,而128GB内存配置下4卡B70可以达到540 tok/s的吞吐量。
章节 06
| 配置 | 模型 | 8并发吞吐量 |
|---|---|---|
| 2x B70, 16GB内存 | Qwen2.5-14B BF16, TP=2 | 140 tok/s |
| 4x B70, 128GB内存 | Qwen3.5-27B BF16, TP=4 | 540 tok/s |
章节 07
构建Ubuntu 24.04 Server自动安装U盘,首次启动时自动完成全部配置。
sudo apt-get install -y xorriso p7zip-full wget
git clone https://github.com/Hal9000AIML/arc-pro-b70-inference-setup.git
cd arc-pro-b70-inference-setup
bash build_iso.sh
sudo dd if=arc-pro-b70-autoinstall.iso of=/dev/sdX bs=4M status=progress
目标机器从U盘启动后,安装程序会自动运行,约60-90分钟后vLLM端点即可使用。
章节 08
wget https://raw.githubusercontent.com/Hal9000AIML/arc-pro-b70-inference-setup/main/odin-b70-setup.sh
chmod +x odin-b70-setup.sh
sudo ./odin-b70-setup.sh
sudo reboot
~/boot_vllm.sh