正文

Intel Arc Pro B70多卡推理服务器搭建指南

详细介绍如何使用Intel Arc Pro B70 GPU搭建高性能LLM推理服务器，涵盖硬件配置、BIOS设置、自动化部署脚本及性能优化。

Intel Arc Pro B70LLM推理vLLMGPUUbuntu Server张量并行大语言模型开源项目

发布时间 2026/04/08 04:40最近活动 2026/04/08 04:59预计阅读 4 分钟

章节 01

导读 / 主楼：Intel Arc Pro B70多卡推理服务器搭建指南

详细介绍如何使用Intel Arc Pro B70 GPU搭建高性能LLM推理服务器，涵盖硬件配置、BIOS设置、自动化部署脚本及性能优化。

章节 02

项目背景与核心目标

该项目由Hal9000AIML开源社区维护，旨在提供一套完整的自动化部署方案。项目核心目标包括：

自动化部署：通过单一脚本完成从内核升级到vLLM编译的全部配置
多卡并行优化：支持2卡、4卡甚至更多GPU的张量并行
生产就绪：包含热监控、自动重启、容器化部署等企业级特性
最新模型支持：第一时间支持Gemma 4、Qwen3.5等最新架构

章节 03

组件	规格
主板	ASUS ROG Zenith Extreme X399
CPU	AMD Threadripper 1900X (8核16线程)
内存	16GB DDR4-3200（建议升级至128GB）
GPU	4x Intel Arc Pro B70 (共128GB显存)
启动盘	256GB NVMe SSD
电源	EVGA SuperNOVA 1600 G+
操作系统	Ubuntu Server 24.04 LTS (内核6.17+)

BIOS关键设置

Above 4G Decoding：必须启用，否则系统无法识别多卡配置
Resizable BAR：必须启用，确保GPU可以访问完整的显存
CSM：必须禁用，仅使用UEFI模式
IOMMU：建议启用，但某些情况下需要设置为iommu=pt
SR-IOV：启用，支持虚拟化场景
PCIe X8/X4_4：设置为X8模式
Slow Mode开关：在Zenith Extreme主板上必须关闭

章节 05

性能基准测试

以Gemma 4 26B-A4B模型（MoE架构，3.8B激活参数）为例：

4卡B70配置，TP=4，16GB内存+64GB交换分区：

并发数	总吞吐量	单请求吞吐量
1	5.7 tok/s	5.7 tok/s
4	18.6 tok/s	~5.5 tok/s
8	37.0 tok/s	~5.2 tok/s

128GB内存配置的理论预测：

并发数	预估吞吐量
1	25-35 tok/s
4	90-120 tok/s
8	160-220 tok/s
16	280-350 tok/s
64	420-500 tok/s
128	480-540 tok/s

从数据可以看出，内存配置对性能影响巨大。16GB内存严重限制了系统性能，而128GB内存配置下4卡B70可以达到540 tok/s的吞吐量。

章节 06

参考基准对比

配置	模型	8并发吞吐量
2x B70, 16GB内存	Qwen2.5-14B BF16, TP=2	140 tok/s
4x B70, 128GB内存	Qwen3.5-27B BF16, TP=4	540 tok/s

章节 07

方案A：可启动USB自动安装

构建Ubuntu 24.04 Server自动安装U盘，首次启动时自动完成全部配置。

sudo apt-get install -y xorriso p7zip-full wget
git clone https://github.com/Hal9000AIML/arc-pro-b70-inference-setup.git
cd arc-pro-b70-inference-setup
bash build_iso.sh
sudo dd if=arc-pro-b70-autoinstall.iso of=/dev/sdX bs=4M status=progress

目标机器从U盘启动后，安装程序会自动运行，约60-90分钟后vLLM端点即可使用。

章节 08

方案B：手动安装

wget https://raw.githubusercontent.com/Hal9000AIML/arc-pro-b70-inference-setup/main/odin-b70-setup.sh
chmod +x odin-b70-setup.sh
sudo ./odin-b70-setup.sh
sudo reboot
~/boot_vllm.sh