Zing 论坛

正文

AMD Strix Halo上的MLX引擎:消费级本地LLM推理的新速度纪录

bleeding-edge项目将Apple的MLX框架移植到AMD Strix Halo平台,通过ROCm后端实现了151.2 tok/s的推理速度,相比Vulkan后端提升83%,成为消费级硬件上最快的本地LLM推理方案。

MLXROCmAMDStrix Halo本地推理LLM消费级硬件vLLMllama.cppQwen3
发布时间 2026/04/15 16:45最近活动 2026/04/15 16:52预计阅读 6 分钟
AMD Strix Halo上的MLX引擎:消费级本地LLM推理的新速度纪录
1

章节 01

导读 / 主楼:AMD Strix Halo上的MLX引擎:消费级本地LLM推理的新速度纪录

bleeding-edge项目将Apple的MLX框架移植到AMD Strix Halo平台,通过ROCm后端实现了151.2 tok/s的推理速度,相比Vulkan后端提升83%,成为消费级硬件上最快的本地LLM推理方案。

2

章节 02

消费级AI硬件的新王者:Strix Halo

AMD Ryzen AI Max+ Pro 395搭载的Strix Halo架构正在重新定义消费级AI计算的边界。这款处理器集成了Radeon 8060S显卡(gfx1151架构)和128GB统一内存,为本地大语言模型推理提供了前所未有的硬件基础。统一内存架构意味着CPU和GPU可以共享同一块高速内存池,彻底消除了传统架构中CPU-GPU数据传输的瓶颈。

然而,硬件只是故事的一半。要充分发挥Strix Halo的潜力,需要同样先进的软件栈。这就是bleeding-edge项目的切入点——它将Apple开发的MLX机器学习框架移植到了AMD ROCm平台,实现了消费级硬件上最快的本地LLM推理速度。

3

章节 03

三大后端的正面较量

bleeding-edge项目在同一硬件平台上对比了三种主流推理后端的表现:

后端 速度 进度条可视化
Vulkan llama.cpp 82.5 tok/s ████████████████░░░░░░░░░░░░░░░
vLLM ROCm 116.7 tok/s ███████████████████████░░░░░░░░
MLX ROCm 151.2 tok/s ██████████████████████████████▌

从Vulkan到MLX的提升幅度高达83%,这一差距在实际使用中是可感知的——从流畅到飞一般的体验跃迁。

4

章节 04

不同模型的性能表现

在Qwen3系列模型的实测中,MLX引擎展现了出色的效率:

模型 速度 (tok/s) 定位
Qwen3-0.6B-4bit 151.2 路由/分流
Qwen3-1.7B-4bit 66.4 快速通用
Qwen3-4B-4bit 46.9 甜点配置
Qwen3-8B-4bit 21.7 重度推理
Phi-4-mini-instruct-4bit 38.3 微软生态
Qwen3-Coder-Next-4bit 26.7 最新编程模型

即使是8B参数规模的模型,也能达到21.7 tok/s的实用速度,足以支撑复杂的推理任务。而0.6B的小型模型在151.2 tok/s的速度下,可以作为智能路由层或快速响应层使用。

5

章节 05

与vLLM的深度对比

在相同硬件条件下,MLX与vLLM ROCm的对比更具参考价值:

模型 MLX vLLM MLX优势
Qwen3-0.6B 151.2 116.7 +30%
Qwen3-4B 46.9 25.4 +85%
Qwen3-8B 21.7 12.3 +76%
Phi-4-mini 38.3 25.1 +53%

值得注意的是,模型越大,MLX的优势反而越明显。这可能与MLX的内存管理策略和内核优化有关——在统一内存架构上,MLX能够更高效地调度大模型的计算资源。

6

章节 06

技术架构解析

bleeding-edge的完整技术栈展示了现代本地AI系统的分层架构:

┌──────────────────────────────────────────┐
│ 应用层 (Discord Agents, Chat, API)       │
├──────────────────────────────────────────┤
│ Lemonade SDK 10.2 — 模型路由器           │
├────────────┬────────────┬────────────────┤
│ MLX引擎    │ vLLM ROCm  │ llama.cpp     │
│ (实验性)   │ (PR #1537) │ Vulkan        │
├────────────┴────────────┴────────────────┤
│ ROCm 7.12 (便携版) / 7.2.1 (系统版)      │
├──────────────────────────────────────────┤
│ AMD Strix Halo gfx1151 · 128GB统一内存   │
│ NPU: XDNA2 via Lemonade FLM              │
└──────────────────────────────────────────┘

这种分层设计允许上层应用无缝切换底层推理引擎,根据场景需求在速度、功能和稳定性之间权衡。

7

章节 07

三大后端的功能对比

特性 MLX引擎 vLLM ROCm llama.cpp Vulkan
语言 C++ Python + C++ C++
冷启动 秒级 分钟级(Triton JIT) 秒级
模型格式 HuggingFace原生 HuggingFace原生 仅GGUF
首日模型支持 需等待GGUF转换
依赖 无(静态二进制) Python, Torch, Triton Vulkan驱动
多用户 否(单用户) 是(PagedAttention) 有限

MLX引擎的零依赖特性尤为突出——单个静态二进制文件即可运行,无需复杂的Python环境配置。这对于追求简洁部署的本地AI用户来说是一个重要优势。

8

章节 08

快速上手指南

bleeding-edge的安装过程被设计得尽可能简单:

# 一键安装
curl -sL https://raw.githubusercontent.com/stampby/bleeding-edge/main/install.sh | bash

# 或手动安装
mkdir -p ~/mlx-engine && cd ~/mlx-engine

# 下载对应GPU架构的版本
# gfx1151 = Strix Halo | gfx1150 = Strix Point
# gfx110X = RDNA3 | gfx120X = RDNA4
gh release download b1004-tech-preview \
  -R lemonade-sdk/lemon-mlx-engine \
  -p '*gfx1151*'

unzip mlx-engine-*-gfx1151-x64.zip -d .
chmod +x chat server diagnose

验证GPU兼容性:

LD_LIBRARY_PATH=. ./diagnose mlx-community/Qwen3-1.7B-4bit

启动交互式对话:

LD_LIBRARY_PATH=. ./chat mlx-community/Qwen3-4B-4bit

启动兼容OpenAI API的服务器:

LD_LIBRARY_PATH=. ./server --port 8090

模型会自动从HuggingFace下载,无需手动GGUF转换,无需等待。