正文

AMD Strix Halo上的MLX引擎：消费级本地LLM推理的新速度纪录

bleeding-edge项目将Apple的MLX框架移植到AMD Strix Halo平台，通过ROCm后端实现了151.2 tok/s的推理速度，相比Vulkan后端提升83%，成为消费级硬件上最快的本地LLM推理方案。

MLXROCmAMDStrix Halo本地推理LLM消费级硬件vLLMllama.cppQwen3

发布时间 2026/04/15 16:45最近活动 2026/04/15 16:52预计阅读 6 分钟

章节 01

导读 / 主楼：AMD Strix Halo上的MLX引擎：消费级本地LLM推理的新速度纪录

章节 02

消费级AI硬件的新王者：Strix Halo

AMD Ryzen AI Max+ Pro 395搭载的Strix Halo架构正在重新定义消费级AI计算的边界。这款处理器集成了Radeon 8060S显卡（gfx1151架构）和128GB统一内存，为本地大语言模型推理提供了前所未有的硬件基础。统一内存架构意味着CPU和GPU可以共享同一块高速内存池，彻底消除了传统架构中CPU-GPU数据传输的瓶颈。

然而，硬件只是故事的一半。要充分发挥Strix Halo的潜力，需要同样先进的软件栈。这就是bleeding-edge项目的切入点——它将Apple开发的MLX机器学习框架移植到了AMD ROCm平台，实现了消费级硬件上最快的本地LLM推理速度。

章节 03

三大后端的正面较量

bleeding-edge项目在同一硬件平台上对比了三种主流推理后端的表现：

后端	速度	进度条可视化
Vulkan llama.cpp	82.5 tok/s	████████████████░░░░░░░░░░░░░░░
vLLM ROCm	116.7 tok/s	███████████████████████░░░░░░░░
MLX ROCm	151.2 tok/s	██████████████████████████████▌

从Vulkan到MLX的提升幅度高达83%，这一差距在实际使用中是可感知的——从流畅到飞一般的体验跃迁。

章节 04

不同模型的性能表现

在Qwen3系列模型的实测中，MLX引擎展现了出色的效率：

模型	速度 (tok/s)	定位
Qwen3-0.6B-4bit	151.2	路由/分流
Qwen3-1.7B-4bit	66.4	快速通用
Qwen3-4B-4bit	46.9	甜点配置
Qwen3-8B-4bit	21.7	重度推理
Phi-4-mini-instruct-4bit	38.3	微软生态
Qwen3-Coder-Next-4bit	26.7	最新编程模型

即使是8B参数规模的模型，也能达到21.7 tok/s的实用速度，足以支撑复杂的推理任务。而0.6B的小型模型在151.2 tok/s的速度下，可以作为智能路由层或快速响应层使用。

章节 05

与vLLM的深度对比

在相同硬件条件下，MLX与vLLM ROCm的对比更具参考价值：

模型	MLX	vLLM	MLX优势
Qwen3-0.6B	151.2	116.7	+30%
Qwen3-4B	46.9	25.4	+85%
Qwen3-8B	21.7	12.3	+76%
Phi-4-mini	38.3	25.1	+53%

值得注意的是，模型越大，MLX的优势反而越明显。这可能与MLX的内存管理策略和内核优化有关——在统一内存架构上，MLX能够更高效地调度大模型的计算资源。

章节 06

技术架构解析

bleeding-edge的完整技术栈展示了现代本地AI系统的分层架构：

┌──────────────────────────────────────────┐
│ 应用层 (Discord Agents, Chat, API)       │
├──────────────────────────────────────────┤
│ Lemonade SDK 10.2 — 模型路由器           │
├────────────┬────────────┬────────────────┤
│ MLX引擎    │ vLLM ROCm  │ llama.cpp     │
│ (实验性)   │ (PR #1537) │ Vulkan        │
├────────────┴────────────┴────────────────┤
│ ROCm 7.12 (便携版) / 7.2.1 (系统版)      │
├──────────────────────────────────────────┤
│ AMD Strix Halo gfx1151 · 128GB统一内存   │
│ NPU: XDNA2 via Lemonade FLM              │
└──────────────────────────────────────────┘

这种分层设计允许上层应用无缝切换底层推理引擎，根据场景需求在速度、功能和稳定性之间权衡。

章节 07

三大后端的功能对比

特性	MLX引擎	vLLM ROCm	llama.cpp Vulkan
语言	C++	Python + C++	C++
冷启动	秒级	分钟级(Triton JIT)	秒级
模型格式	HuggingFace原生	HuggingFace原生	仅GGUF
首日模型支持	是	是	需等待GGUF转换
依赖	无(静态二进制)	Python, Torch, Triton	Vulkan驱动
多用户	否(单用户)	是(PagedAttention)	有限

MLX引擎的零依赖特性尤为突出——单个静态二进制文件即可运行，无需复杂的Python环境配置。这对于追求简洁部署的本地AI用户来说是一个重要优势。

章节 08

快速上手指南

bleeding-edge的安装过程被设计得尽可能简单：

# 一键安装
curl -sL https://raw.githubusercontent.com/stampby/bleeding-edge/main/install.sh | bash

# 或手动安装
mkdir -p ~/mlx-engine && cd ~/mlx-engine

# 下载对应GPU架构的版本
# gfx1151 = Strix Halo | gfx1150 = Strix Point
# gfx110X = RDNA3 | gfx120X = RDNA4
gh release download b1004-tech-preview \
  -R lemonade-sdk/lemon-mlx-engine \
  -p '*gfx1151*'

unzip mlx-engine-*-gfx1151-x64.zip -d .
chmod +x chat server diagnose

验证GPU兼容性：

LD_LIBRARY_PATH=. ./diagnose mlx-community/Qwen3-1.7B-4bit

启动交互式对话：

LD_LIBRARY_PATH=. ./chat mlx-community/Qwen3-4B-4bit

启动兼容OpenAI API的服务器：

LD_LIBRARY_PATH=. ./server --port 8090

模型会自动从HuggingFace下载，无需手动GGUF转换，无需等待。

AMD Strix Halo上的MLX引擎：消费级本地LLM推理的新速度纪录

导读 / 主楼：AMD Strix Halo上的MLX引擎：消费级本地LLM推理的新速度纪录

消费级AI硬件的新王者：Strix Halo

三大后端的正面较量

不同模型的性能表现

与vLLM的深度对比

技术架构解析

三大后端的功能对比

快速上手指南

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统