# Mac LLM Bench：Apple Silicon 本地大模型性能基准测试社区项目

> 一个面向 Apple Silicon Mac 的社区驱动大语言模型性能基准数据库，支持 M1-M5 全系列芯片，涵盖 Gemma 3、Qwen 3、DeepSeek R1 Distill 等 14 个模型，提供标准化、可复现的性能测试方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-06T11:14:11.000Z
- 最近活动: 2026-04-06T11:22:16.271Z
- 热度: 156.9
- 关键词: Apple Silicon, Mac, LLM, 基准测试, 性能测试, llama.cpp, Gemma 3, Qwen 3, DeepSeek, 本地推理, 社区驱动
- 页面链接: https://www.zingnex.cn/forum/thread/mac-llm-bench-apple-silicon
- Canonical: https://www.zingnex.cn/forum/thread/mac-llm-bench-apple-silicon
- Markdown 来源: ingested_event

---

# Mac LLM Bench：Apple Silicon 本地大模型性能基准测试社区项目

随着大语言模型技术的普及，越来越多的开发者和研究者希望在本地运行 LLM，而 Apple Silicon 凭借其统一的内存架构和强大的神经网络引擎，成为了本地推理的热门平台。然而，面对琳琅满目的模型和量化方案，如何选择最适合自己设备的配置，成为了一个现实的难题。**Mac LLM Bench** 项目正是为解决这一问题而生，它致力于构建一个社区驱动的、全面且可复现的 Apple Silicon 性能基准数据库。

## 项目背景与核心目标

Apple Silicon 自 M1 发布以来，已经发展出 M1、M2、M3、M4、M5 五代产品线，每代又细分为基础版、Pro、Max、Ultra 等多个变体，搭配从 8GB 到 256GB 不等的统一内存配置。这种复杂的硬件矩阵，加上 LLM 领域层出不穷的模型和量化方案，使得普通用户很难直观了解"我的 Mac 能跑什么模型"、"跑起来有多快"。

Mac LLM Bench 的核心目标是建立一个全面、可复现的性能数据库，让任何人都能查询特定 LLM 在自己 Mac 上的运行速度，并找到最优配置。项目采用社区贡献的模式，鼓励用户在自己的设备上运行标准化测试，并将结果提交到数据库中，形成众包式的性能图谱。

## 技术架构与测试方法

项目选择 **llama-bench** 作为核心测试工具，这是 llama.cpp 项目提供的标准化基准测试程序。选择它的原因在于其测试内容无关、完全可复现的特性——它测量的是固定 token 数量下的原始处理速度，不依赖特定提示词，也不需要因测试用例变化而重新测试。

测试指标涵盖两个核心维度：

### 提示处理速度（Prompt Processing）

测试指标包括 pp128、pp256、pp512，分别代表处理 128、256、512 个 token 的提示时的处理速度（token/秒）。这反映了模型理解输入上下文的能力，对于需要处理长文档或复杂指令的场景尤为重要。

### 文本生成速度（Text Generation）

测试指标包括 tg128、tg256，代表生成 128、256 个 token 时的速度（token/秒）。这直接影响用户体验，决定了模型回复的流畅程度。对于交互式应用，通常需要达到 10-20 token/秒才能提供可接受的体验。

### 辅助指标

除了核心速度指标，项目还记录峰值内存占用（通过 `/usr/bin/time` 测量）和可选的困惑度（Perplexity，通过 llama-perplexity 在 WikiText-2 上测试）。这些数据帮助用户评估模型能否在设备上运行，以及量化方案对模型质量的影响。

## 支持的模型与量化方案

项目目前涵盖三大模型家族共 14 个模型，全部无需 HuggingFace 登录即可下载：

### Gemma 3（Google）

包括 1B、4B、12B、27B 四个参数量版本。Gemma 3 是 Google 开源的轻量级模型系列，以高效的架构设计和优秀的多语言能力著称，特别适合在资源受限的设备上运行。

### Qwen 3（阿里巴巴）

涵盖从 0.6B 到 32B 共 7 个版本，包括独特的 30B-A3B MoE（混合专家）架构。Qwen 3 在中文理解和代码生成方面表现突出，是国产开源模型中的佼佼者。

### DeepSeek R1 Distill

包括 7B、14B、32B 三个蒸馏版本。DeepSeek R1 是近期备受关注的推理模型，其蒸馏版本在保持较强推理能力的同时大幅降低了计算需求，是本地部署的热门选择。

项目支持通过 `./bench.sh --list` 查看所有可用模型，并通过 `--sweep` 或 `--sweep-full` 参数自动寻找最优的量化配置和层数设置。

## 硬件覆盖与结果组织

项目目标覆盖 Apple Silicon 全系列配置，按以下维度组织：

- **芯片代数**：M1 / M2 / M3 / M4 / M5
- **芯片变体**：基础版 / Pro / Max / Ultra
- **核心配置**：不同的 CPU 核心数和 GPU 核心数组合
- **内存容量**：从 8GB 到 256GB 的各种配置

结果按芯片代数分目录存储，每个目录下包含该代芯片所有变体和配置的测试结果表格，以及原始 JSON 数据。目前 M5 系列已有 1 个配置、14 个模型的完整数据，其他系列等待社区贡献。

## 使用流程与快速上手

项目的使用门槛设计得相当低。用户只需具备以下条件：

- Apple Silicon Mac（M1 及以上）
- macOS 系统
- 通过 Homebrew 安装 llama.cpp
- 通过 pip 安装 huggingface-hub

快速测试只需三步：

```bash
git clone https://github.com/enescingoz/mac-llm-bench.git
cd mac-llm-bench
./bench.sh --quick  # 运行快速测试（约 0.8GB 下载）
```

`--quick` 模式会下载一个小型模型进行烟雾测试，验证环境配置正确。若要测试所有能在设备内存中运行的模型，可使用 `--auto` 模式。测试完成后，运行 `python3 scripts/generate_results.py` 即可生成格式化的结果表格。

## 社区贡献与数据质量

项目采用开源社区协作模式，通过 CONTRIBUTING.md 文档规范贡献流程。用户在自己的设备上完成测试后，可以提交 Pull Request 将结果添加到数据库中。这种众包模式的优势在于能够覆盖项目维护者无法触及的硬件配置，形成真正全面的性能图谱。

为确保数据质量，项目定义了严格的 JSON 结果格式（见 schemas/result.schema.json），并通过自动化脚本生成统一格式的结果表格。原始数据按芯片型号、核心配置、内存大小、模型名称、量化方案、层数等维度组织，便于后续分析和对比。

## 参数优化与最佳实践

除了提供基准数据，项目还内置了参数优化功能。通过 `--sweep` 参数，用户可以针对特定模型快速扫描最优配置；`--sweep-full` 则进行更彻底的穷举搜索。这对于希望在特定硬件上榨取最大性能的用户尤为有用。

在实际使用中，用户需要在速度、质量和内存占用之间做出权衡。较小的量化位数（如 Q4）速度更快、占用更少，但可能损失模型能力；较大的量化位数（如 Q8 或 F16）质量更好，但需要更多内存和计算资源。项目的数据可以帮助用户根据自己的使用场景做出明智选择。

## 项目价值与行业意义

Mac LLM Bench 的价值不仅在于提供了性能数据，更在于它建立了一个标准化的评估框架。在 LLM 生态快速迭代的今天，缺乏统一基准使得不同模型、不同平台之间的比较变得困难。该项目通过采用 llama.cpp 生态的标准工具，为 Apple Silicon 平台建立了一致的度量衡。

对于普通用户，它是选购设备和选择模型的实用参考；对于开发者，它是优化本地推理性能的基准工具；对于研究者，它是了解 Apple Silicon 在大模型推理领域竞争力的数据来源。

从更宏观的视角看，这类社区驱动的基准测试项目，是推动边缘计算和本地 AI 发展的重要基础设施。随着隐私保护和数据主权意识的增强，本地运行 LLM 的需求将持续增长，而清晰、可信的性能数据是这一趋势的必要支撑。

## 未来展望与参与方式

项目目前处于早期阶段，M1-M4 系列的数据尚待社区填充。随着 M5 系列 Mac 的发布，数据库将持续扩展。项目维护者欢迎更多模型家族的加入，也欢迎对测试方法、指标体系的改进建议。

对于希望参与的开发者，可以从运行 `--quick` 测试开始，熟悉流程后在自己设备上运行完整测试并提交结果。每一个贡献都将使数据库更加完善，帮助更多用户做出明智的决策。

---

**项目地址：** https://github.com/enescingoz/mac-llm-bench

**技术栈：** llama.cpp, Python, Bash, YAML

**支持模型：** Gemma 3, Qwen 3, DeepSeek R1 Distill（14 models）

**硬件覆盖：** Apple M1/M2/M3/M4/M5 全系
