正文

Intel Arc GPU 本地部署 LLM 全栈方案：Ollama + Open WebUI + ComfyUI 一站式指南

介绍如何在 Intel Arc 系列 GPU 上通过 Docker 部署完整的 AI 工作流，包括 Ollama 大语言模型推理、Open WebUI 交互界面、ComfyUI/SD.Next 图像生成以及 Whisper 语音识别。

Intel ArcOllamaOpen WebUIDocker本地部署LLMWhisperComfyUIIPEX

发布时间 2026/03/31 06:43最近活动 2026/03/31 06:48预计阅读 4 分钟

章节 01

导读 / 主楼：Intel Arc GPU 本地部署 LLM 全栈方案：Ollama + Open WebUI + ComfyUI 一站式指南

章节 02

背景：为什么需要这套方案？

随着大型语言模型（LLM）技术的普及，越来越多的开发者和爱好者希望在本地运行 AI 模型。然而，NVIDIA GPU 长期主导着 AI 加速领域，对于使用 Intel Arc 系列显卡的用户来说，找到合适的部署方案并不容易。

Intel Arc 系列 GPU 作为英特尔进军独立显卡市场的产品，虽然在游戏领域表现不俗，但在 AI 推理领域的生态建设相对滞后。ollama-intel-arc 项目正是为了解决这一痛点而生，它提供了一套完整的 Docker 化解决方案，让 Intel Arc 用户也能轻松部署本地 AI 服务。

章节 03

项目概述：一站式 AI 工作流

该项目基于 Intel Extension for PyTorch（IPEX）技术栈，将多个流行的 AI 工具整合到一个统一的部署框架中。核心组件包括：

Ollama：本地大语言模型推理引擎，支持 llama.cpp 和多种开源模型
Open WebUI：用户友好的 Web 交互界面，支持对话、图片生成等功能
ComfyUI：模块化扩散模型 GUI，适合高级图像生成工作流
SD.Next：基于 Automatic1111 的全功能图像生成工具
OpenAI Whisper：自动语音识别（ASR）服务

章节 04

Intel Extension for PyTorch（IPEX）

该方案的核心技术支撑是 Intel Extension for PyTorch，这是英特尔为 PyTorch 开发的扩展库，专门针对 Intel GPU 和 CPU 进行了优化。通过 SYCL（Single-source Heterogeneous Programming）接口，IPEX 能够将 PyTorch 计算任务 offload 到 Intel Arc GPU 上执行。

项目使用官方 Intel ipex-llm Docker 镜像作为基础容器，确保了与底层硬件的最佳兼容性。从日志输出可以看到，系统能够正确识别 Intel Arc GPU 的 SYCL 设备信息，包括计算单元数量、内存容量等关键参数。

章节 05

Docker Compose 编排

整个方案采用 Docker Compose 进行服务编排，每个组件都是独立的容器，可以按需启动。这种设计带来了几个显著优势：

隔离性：各个服务之间相互独立，不会互相干扰
可组合性：用户可以根据需要选择启动哪些服务
可移植性：配置文件和镜像定义确保了跨环境的一致性
易维护性：更新单个组件不会影响其他服务

章节 06

Open WebUI 配置优化

项目对 Open WebUI 进行了针对性配置，关闭了外部 API 支持（ENABLE_OPENAI_API=false），专注于 Ollama 后端。同时启用了图片生成功能（ENABLE_IMAGE_GENERATION=true），并将生成引擎设置为与 SD.Next 兼容的 automatic1111 模式。

章节 07

部署流程详解

部署过程非常简单，只需几条命令即可完成：

# 克隆仓库
git clone https://github.com/eleiton/ollama-intel-arc.git
cd ollama-intel-arc

# 启动核心服务（Ollama + Open WebUI）
podman compose up

# 可选：启动图像生成服务
podman compose -f docker-compose.comfyui.yml up
podman compose -f docker-compose.sdnext.yml up

# 可选：启动语音识别服务
podman compose -f docker-compose.whisper.yml up

验证服务是否正常运行：

curl http://localhost:11434/
# 预期输出：Ollama is running

章节 08

Whisper 语音识别实战

项目提供了完整的 Whisper 语音识别示例。用户可以通过简单的命令行调用，将音频文件转录为文本，或进行跨语言翻译。

转录示例（德语到德语）：

podman exec -it whisper-ipex whisper \
  https://example.com/audio.mp3 \
  --device xpu \
  --model small \
  --language German \
  --task transcribe

翻译示例（德语到英语）：

podman exec -it whisper-ipex whisper \
  https://example.com/audio.mp3 \
  --device xpu \
  --model small \
  --language German \
  --task translate

--device xpu 参数指定使用 Intel GPU 进行加速，相比 CPU 推理可以获得显著的性能提升。

Intel Arc GPU 本地部署 LLM 全栈方案：Ollama + Open WebUI + ComfyUI 一站式指南

导读 / 主楼：Intel Arc GPU 本地部署 LLM 全栈方案：Ollama + Open WebUI + ComfyUI 一站式指南

背景：为什么需要这套方案？

项目概述：一站式 AI 工作流

Intel Extension for PyTorch（IPEX）

Docker Compose 编排

Open WebUI 配置优化

部署流程详解

Whisper 语音识别实战

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Lattice：AI代理工作流的运维平台，实现跨会话协调与自动化