Zing 论坛

正文

Intel Arc A770 LLM推理加速:SYCL融合Kernel实现40+ t/s突破

通过GPU端反量化与GEMM融合技术,将llama.cpp在Intel Arc A770上的Qwen2.5-7B推理性能从26.4 t/s提升至40+ t/s,实现52%的性能飞跃。

Intel Arc A770llama.cppSYCLGPU加速LLM推理量化模型XMXIPEX-LLMQwen2.5开源优化
发布时间 2026/05/24 05:42最近活动 2026/05/24 05:49预计阅读 2 分钟
Intel Arc A770 LLM推理加速:SYCL融合Kernel实现40+ t/s突破
1

章节 01

Intel Arc A770 LLM推理加速:SYCL融合Kernel实现40+ t/s突破

本项目由hqh330在GitHub维护(项目链接:https://github.com/hqh330/arc770-llm,发布时间2026-05-23),针对llama.cpp在Intel Arc A770上的LLM推理性能瓶颈,通过GPU端反量化与GEMM融合技术,将Qwen2.5-7B Q4_K_M模型推理速度从26.4 t/s提升至40+ t/s,实现52%性能飞跃。核心优化基于SYCL融合Kernel架构与IPEX-LLM集成。

2

章节 02

项目背景与动机

在LLM推理加速领域,NVIDIA GPU长期主导,Intel Arc A770虽硬件规格不错(具备XMX单元),但llama.cpp SYCL后端优化不足,难以发挥潜力。传统推理流程中,反量化与GEMM分离执行,导致CPU-GPU间大量数据传输,形成性能瓶颈。本项目旨在解决这一痛点。

3

章节 03

核心技术方案

SYCL融合Kernel架构

将反量化操作嵌入GEMM Kernel内部,实现GPU端连续执行,优势包括:减少数据传输(量化权重直接传输)、消除同步开销、提升缓存效率、充分发挥XMX单元潜力。

IPEX-LLM集成

集成Intel Extension for PyTorch (IPEX) LLM的48个SPIR-V Kernel模块,针对Arc架构优化,支持跨GPU架构移植,为未来扩展奠定基础。

4

章节 04

性能实测与编译模式

基准测试结果

配置 推理速度 提升幅度
基线(未优化) 26.4 t/s -
融合Kernel优化后 40+ t/s +52%

编译模式

  • JIT模式:1-2分钟编译,灵活适合开发验证,启动稍慢。
  • AOT模式:15-20分钟编译,预编译为设备二进制,启动快性能优,推荐生产部署。
5

章节 05

技术实现细节

  • DPAS指令支持:分支包含对XMX单元核心指令DPAS(Dot Product Accumulate Systolic)的支持,高效执行矩阵乘加运算。
  • 内存布局优化:重新设计Q4_K_M量化权重的内存布局,配合融合Kernel访问模式,实现高效向量化加载。
  • 多队列并行:SYCL后端支持多队列并行,任务划分使计算、数据传输、预处理重叠,提升吞吐量。
6

章节 06

应用价值与意义

  • 为Intel Arc用户提供实用性能提升方案,解决llama.cpp此前表现不佳问题。
  • 展示开源社区填补厂商软件生态空白的价值(IPEX与llama.cpp深度集成依赖社区)。
  • 推动AI民主化:降低本地LLM运行硬件门槛,让更多用户享受隐私与便利。
7

章节 07

未来展望

  • 扩展支持更多模型架构(Llama、Mistral、Phi等)。
  • 增加量化格式支持(Q5_K_M、Q6_K等)。
  • 优化小批量推理延迟。
  • 探索多GPU并行推理。
  • 适配Intel Battlemage系列显卡,预期获得更大性能收益。