正文

inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

本文介绍了一个开源的本地大语言模型推理速度测试项目，专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本，帮助用户测量不同模型在各种Apple设备上的推理性能，并鼓励社区贡献测试结果以建立全面的性能数据库。

LLMbenchmarkApple SiliconMLXinference speedlocal deploymentQwenperformance testing

发布时间 2026/03/29 13:09最近活动 2026/03/29 13:24预计阅读 3 分钟

章节 01

导读 / 主楼：inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

章节 02

项目概述

inference-speed-tests是一个专注于本地大语言模型（LLM）推理速度测试的开源项目，主要面向Apple Silicon设备。该项目由社区驱动，旨在建立一个全面的性能数据库，帮助用户了解不同模型在各种Apple硬件上的实际表现。

与传统的云端API基准测试不同，该项目专注于本地部署场景，这对于关注数据隐私、需要离线运行或希望降低长期使用成本的用户尤为重要。

章节 03

可复现的基准测试

项目提供了标准化的测试脚本，确保不同用户、不同时间运行的测试结果具有可比性。这种可复现性对于：

横向比较不同模型的性能
纵向追踪同一模型的版本迭代表现
评估硬件升级带来的性能提升

章节 04

多维度性能指标

测试脚本收集以下关键性能指标：

提示处理速度（Prompt TPS）：处理输入提示的token每秒数
生成速度（Generation TPS）：生成输出文本的token每秒数
首token时间（Time-to-First-Token）：从提交请求到收到第一个响应token的延迟
峰值内存（Peak Memory）：推理过程中的最大内存占用
总时间（Total Time）：完成整个推理过程的总耗时

章节 05

统计报告

测试结果以Markdown格式输出，包含：

汇总表格（跨多次迭代的平均值±标准差）
每次迭代的详细数据
设备信息（型号、芯片、内存、GPU核心数）

章节 06

系统要求

macOS操作系统
Apple Silicon芯片（M1/M2/M3/M4系列）
uv包管理器

章节 07

安装与运行

# 克隆仓库并安装依赖
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 单模型单次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit -n 1

# 多模型多次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit mlx-community/Qwen2.5-14B-Instruct-4bit

# 自定义提示、输出文件和迭代次数
uv run main.py mlx-community/Qwen2.5-32B-Instruct-4bit \
  --prompt "Write a 500 word story" \
  --iterations 5 \
  --output my_results.md

章节 08

自动设备识别

项目的一个贴心设计是自动设备识别和结果组织。测试结果会自动保存到以设备信息命名的文件夹中，命名格式为：

macbook-pro-m5-max-128gb-40-core-gpu/
mac-mini-m4-pro-64gb-20-core-gpu/

这种设计基于以下信息自动生成：

Mac型号（MacBook Pro、Mac mini等）
芯片型号（M4、M4 Pro、M5 Max等）
内存容量
GPU核心数

inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

导读 / 主楼：inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

项目概述

可复现的基准测试

多维度性能指标

统计报告

系统要求

安装与运行

自动设备识别

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案