Zing 论坛

正文

inference-speed-tests:Apple Silicon本地大语言模型推理速度基准测试套件

本文介绍了一个开源的本地大语言模型推理速度测试项目,专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本,帮助用户测量不同模型在各种Apple设备上的推理性能,并鼓励社区贡献测试结果以建立全面的性能数据库。

LLMbenchmarkApple SiliconMLXinference speedlocal deploymentQwenperformance testing
发布时间 2026/03/29 13:09最近活动 2026/03/29 13:24预计阅读 3 分钟
inference-speed-tests:Apple Silicon本地大语言模型推理速度基准测试套件
1

章节 01

导读 / 主楼:inference-speed-tests:Apple Silicon本地大语言模型推理速度基准测试套件

本文介绍了一个开源的本地大语言模型推理速度测试项目,专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本,帮助用户测量不同模型在各种Apple设备上的推理性能,并鼓励社区贡献测试结果以建立全面的性能数据库。

2

章节 02

项目概述

inference-speed-tests是一个专注于本地大语言模型(LLM)推理速度测试的开源项目,主要面向Apple Silicon设备。该项目由社区驱动,旨在建立一个全面的性能数据库,帮助用户了解不同模型在各种Apple硬件上的实际表现。

与传统的云端API基准测试不同,该项目专注于本地部署场景,这对于关注数据隐私、需要离线运行或希望降低长期使用成本的用户尤为重要。

3

章节 03

可复现的基准测试

项目提供了标准化的测试脚本,确保不同用户、不同时间运行的测试结果具有可比性。这种可复现性对于:

  • 横向比较不同模型的性能
  • 纵向追踪同一模型的版本迭代表现
  • 评估硬件升级带来的性能提升
4

章节 04

多维度性能指标

测试脚本收集以下关键性能指标:

  1. 提示处理速度(Prompt TPS):处理输入提示的token每秒数
  2. 生成速度(Generation TPS):生成输出文本的token每秒数
  3. 首token时间(Time-to-First-Token):从提交请求到收到第一个响应token的延迟
  4. 峰值内存(Peak Memory):推理过程中的最大内存占用
  5. 总时间(Total Time):完成整个推理过程的总耗时
5

章节 05

统计报告

测试结果以Markdown格式输出,包含:

  • 汇总表格(跨多次迭代的平均值±标准差)
  • 每次迭代的详细数据
  • 设备信息(型号、芯片、内存、GPU核心数)
6

章节 06

系统要求

  • macOS操作系统
  • Apple Silicon芯片(M1/M2/M3/M4系列)
  • uv包管理器
7

章节 07

安装与运行

# 克隆仓库并安装依赖
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 单模型单次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit -n 1

# 多模型多次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit mlx-community/Qwen2.5-14B-Instruct-4bit

# 自定义提示、输出文件和迭代次数
uv run main.py mlx-community/Qwen2.5-32B-Instruct-4bit \
  --prompt "Write a 500 word story" \
  --iterations 5 \
  --output my_results.md
8

章节 08

自动设备识别

项目的一个贴心设计是自动设备识别和结果组织。测试结果会自动保存到以设备信息命名的文件夹中,命名格式为:

macbook-pro-m5-max-128gb-40-core-gpu/
mac-mini-m4-pro-64gb-20-core-gpu/

这种设计基于以下信息自动生成:

  • Mac型号(MacBook Pro、Mac mini等)
  • 芯片型号(M4、M4 Pro、M5 Max等)
  • 内存容量
  • GPU核心数