# inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

> 本文介绍了一个开源的本地大语言模型推理速度测试项目，专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本，帮助用户测量不同模型在各种Apple设备上的推理性能，并鼓励社区贡献测试结果以建立全面的性能数据库。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-29T05:09:57.000Z
- 最近活动: 2026-03-29T05:24:18.772Z
- 热度: 159.8
- 关键词: LLM, benchmark, Apple Silicon, MLX, inference speed, local deployment, Qwen, performance testing
- 页面链接: https://www.zingnex.cn/forum/thread/inference-speed-tests-apple-silicon
- Canonical: https://www.zingnex.cn/forum/thread/inference-speed-tests-apple-silicon
- Markdown 来源: ingested_event

---

# inference-speed-tests：Apple Silicon本地大语言模型推理速度基准测试套件

## 项目概述

inference-speed-tests是一个专注于本地大语言模型（LLM）推理速度测试的开源项目，主要面向Apple Silicon设备。该项目由社区驱动，旨在建立一个全面的性能数据库，帮助用户了解不同模型在各种Apple硬件上的实际表现。

与传统的云端API基准测试不同，该项目专注于**本地部署场景**，这对于关注数据隐私、需要离线运行或希望降低长期使用成本的用户尤为重要。

## 核心功能与设计

### 可复现的基准测试

项目提供了标准化的测试脚本，确保不同用户、不同时间运行的测试结果具有可比性。这种可复现性对于：

- 横向比较不同模型的性能
- 纵向追踪同一模型的版本迭代表现
- 评估硬件升级带来的性能提升

### 多维度性能指标

测试脚本收集以下关键性能指标：

1. **提示处理速度（Prompt TPS）**：处理输入提示的token每秒数
2. **生成速度（Generation TPS）**：生成输出文本的token每秒数
3. **首token时间（Time-to-First-Token）**：从提交请求到收到第一个响应token的延迟
4. **峰值内存（Peak Memory）**：推理过程中的最大内存占用
5. **总时间（Total Time）**：完成整个推理过程的总耗时

### 统计报告

测试结果以Markdown格式输出，包含：
- 汇总表格（跨多次迭代的平均值±标准差）
- 每次迭代的详细数据
- 设备信息（型号、芯片、内存、GPU核心数）

## 快速开始

### 系统要求

- macOS操作系统
- Apple Silicon芯片（M1/M2/M3/M4系列）
- [uv](https://docs.astral.sh/uv/)包管理器

### 安装与运行

```bash
# 克隆仓库并安装依赖
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 单模型单次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit -n 1

# 多模型多次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit mlx-community/Qwen2.5-14B-Instruct-4bit

# 自定义提示、输出文件和迭代次数
uv run main.py mlx-community/Qwen2.5-32B-Instruct-4bit \
  --prompt "Write a 500 word story" \
  --iterations 5 \
  --output my_results.md
```

## 智能输出组织

### 自动设备识别

项目的一个贴心设计是自动设备识别和结果组织。测试结果会自动保存到以设备信息命名的文件夹中，命名格式为：

```
macbook-pro-m5-max-128gb-40-core-gpu/
mac-mini-m4-pro-64gb-20-core-gpu/
```

这种设计基于以下信息自动生成：
- Mac型号（MacBook Pro、Mac mini等）
- 芯片型号（M4、M4 Pro、M5 Max等）
- 内存容量
- GPU核心数

### 手动覆盖

如果需要自定义输出位置，可以通过`--output`参数指定包含目录的路径：

```bash
--output my-folder/results.md
```

## 社区贡献与数据积累

### 为什么需要社区贡献

单一用户的测试结果受限于其拥有的硬件设备。通过社区协作，可以：

1. **覆盖更多设备组合**：从基础款M1到顶配M5 Max
2. **验证结果一致性**：多人测试同一配置可发现异常
3. **追踪长期趋势**：观察模型优化和系统更新对性能的影响
4. **辅助购买决策**：为潜在买家提供真实性能参考

### 贡献流程

项目鼓励所有人提交基准测试结果，流程简洁明了：

1. **Fork仓库**并克隆到本地
2. **运行测试脚本**（结果会自动保存到设备专属文件夹）
3. **提交Pull Request**将新文件夹添加到仓库

无需特殊格式要求，直接提交脚本输出即可。

### 非Apple Silicon设备

对于在其他硬件上手动运行的测试，项目同样欢迎贡献。用户可以：
- 以任意合理格式添加结果
- 提交Pull Request或Issue
- 维护者会协助整合数据

## 测试模型与框架

### MLX社区模型

项目主要测试[MLX社区](https://huggingface.co/mlx-community)提供的量化模型，这些模型专为Apple Silicon优化。常见测试模型包括：

- **Qwen2.5系列**：7B、14B、32B参数的指令微调版本
- **量化格式**：4bit量化在保持可接受质量的同时大幅降低内存占用

### MLX框架优势

MLX是Apple专为机器学习设计的框架，具有以下特点：
- 原生支持Apple Silicon的统一内存架构
- 高效的GPU利用率
- 与PyTorch类似的API设计
- 活跃的社区生态

## 实际应用场景

### 硬件选型参考

对于计划购买Apple设备用于本地AI推理的用户，该项目的社区数据库可以提供：

- 不同芯片型号的性能差距
- 内存容量对可运行模型规模的限制
- GPU核心数与推理速度的关联

### 模型选择指导

开发者可以根据测试结果：

- 在性能和质量之间找到平衡点
- 评估量化对实际使用体验的影响
- 选择适合目标硬件的模型规模

### 性能优化验证

对于模型开发者或框架维护者，该项目提供了：

- 优化效果的量化验证手段
- 跨版本的性能回归检测
- 不同硬件上的优化策略效果对比

## 数据可信度说明

项目明确标注：**所有结果未经人工验证**。这意味着：

1. 数据可能存在测量误差
2. 测试环境可能存在差异
3. 建议结合多个来源的结果综合判断

这种透明态度有助于建立健康的社区数据文化，鼓励更多用户参与验证和完善。

## 结语

inference-speed-tests是一个实用且社区友好的开源项目，它填补了Apple Silicon本地LLM性能基准的空白。通过标准化的测试方法和开放的贡献机制，项目正在建立一个宝贵的性能数据库，为开发者、研究人员和普通用户提供数据驱动的决策支持。在本地AI部署日益流行的趋势下，这样的社区协作项目具有重要的参考价值。
