章节 01
Mac LLM Bench:Apple Silicon本地大模型性能基准测试社区项目导读
Mac LLM Bench是一个社区驱动的Apple Silicon Mac本地大语言模型性能基准数据库,支持M1-M5全系列芯片,涵盖Gemma 3、Qwen 3、DeepSeek R1 Distill等14个模型,提供标准化、可复现的性能测试方案。项目旨在解决用户选择适配自身Mac的LLM模型与配置的难题,通过众包模式构建全面性能图谱,帮助用户查询特定模型在设备上的运行速度及最优配置。
正文
一个面向 Apple Silicon Mac 的社区驱动大语言模型性能基准数据库,支持 M1-M5 全系列芯片,涵盖 Gemma 3、Qwen 3、DeepSeek R1 Distill 等 14 个模型,提供标准化、可复现的性能测试方案。
章节 01
Mac LLM Bench是一个社区驱动的Apple Silicon Mac本地大语言模型性能基准数据库,支持M1-M5全系列芯片,涵盖Gemma 3、Qwen 3、DeepSeek R1 Distill等14个模型,提供标准化、可复现的性能测试方案。项目旨在解决用户选择适配自身Mac的LLM模型与配置的难题,通过众包模式构建全面性能图谱,帮助用户查询特定模型在设备上的运行速度及最优配置。
章节 02
Apple Silicon已发展出M1-M5五代产品线,每代含基础版、Pro、Max、Ultra等变体及8GB-256GB内存配置,加上LLM模型与量化方案的多样性,普通用户难以直观了解自身Mac能运行的模型及速度。项目核心目标是建立全面、可复现的性能数据库,让用户查询特定LLM在自己Mac上的运行速度并找到最优配置,采用社区贡献模式形成众包性能图谱。
章节 03
项目采用llama.cpp的llama-bench作为核心测试工具,因其测试内容无关、完全可复现。测试指标包括:提示处理速度(pp128/256/512,token/秒)、文本生成速度(tg128/256,token/秒);辅助指标有峰值内存占用(通过/usr/bin/time测量)和可选困惑度(WikiText-2上测试)。
章节 04
项目涵盖三大模型家族共14个模型(无需HuggingFace登录下载):Gemma 3(1B/4B/12B/27B)、Qwen 3(0.6B-32B含30B-A3B MoE)、DeepSeek R1 Distill(7B/14B/32B)。支持通过./bench.sh --list查看模型,--sweep或--sweep-full自动寻找最优量化配置与层数。
章节 05
硬件覆盖Apple Silicon全系列(M1-M5各变体、不同核心/内存配置),结果按芯片代数分目录存储。使用门槛低:需Apple Silicon Mac、macOS,安装llama.cpp(Homebrew)和huggingface-hub(pip)。快速测试三步:git clone项目→cd进入→运行./bench.sh --quick;--auto模式测试所有适配模型,生成结果表格需运行python3 scripts/generate_results.py。
章节 06
项目采用开源协作模式,用户完成测试后可提交PR贡献结果。通过CONTRIBUTING.md规范流程,严格JSON结果格式(schemas/result.schema.json),自动化脚本生成统一表格,原始数据按芯片型号、核心配置等维度组织,确保数据质量。
章节 07
项目价值:为Apple Silicon平台建立标准化评估框架,帮助普通用户选设备/模型、开发者优化性能、研究者了解竞争力,是边缘计算与本地AI发展的基础设施。未来展望:填充M1-M4数据,扩展模型家族,欢迎改进建议;参与方式:从--quick测试开始,提交完整测试结果。项目地址:https://github.com/enescingoz/mac-llm-bench。