章节 01
导读 / 主楼:inference-speed-tests:Apple Silicon本地大语言模型推理速度基准测试套件
本文介绍了一个开源的本地大语言模型推理速度测试项目,专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本,帮助用户测量不同模型在各种Apple设备上的推理性能,并鼓励社区贡献测试结果以建立全面的性能数据库。
正文
本文介绍了一个开源的本地大语言模型推理速度测试项目,专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本,帮助用户测量不同模型在各种Apple设备上的推理性能,并鼓励社区贡献测试结果以建立全面的性能数据库。
章节 01
本文介绍了一个开源的本地大语言模型推理速度测试项目,专为Apple Silicon Mac设计。该项目提供了可复现的基准测试脚本,帮助用户测量不同模型在各种Apple设备上的推理性能,并鼓励社区贡献测试结果以建立全面的性能数据库。
章节 02
inference-speed-tests是一个专注于本地大语言模型(LLM)推理速度测试的开源项目,主要面向Apple Silicon设备。该项目由社区驱动,旨在建立一个全面的性能数据库,帮助用户了解不同模型在各种Apple硬件上的实际表现。
与传统的云端API基准测试不同,该项目专注于本地部署场景,这对于关注数据隐私、需要离线运行或希望降低长期使用成本的用户尤为重要。
章节 03
项目提供了标准化的测试脚本,确保不同用户、不同时间运行的测试结果具有可比性。这种可复现性对于:
章节 04
测试脚本收集以下关键性能指标:
章节 05
测试结果以Markdown格式输出,包含:
章节 06
章节 07
# 克隆仓库并安装依赖
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync
# 单模型单次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit -n 1
# 多模型多次测试
uv run main.py mlx-community/Qwen2.5-7B-Instruct-4bit mlx-community/Qwen2.5-14B-Instruct-4bit
# 自定义提示、输出文件和迭代次数
uv run main.py mlx-community/Qwen2.5-32B-Instruct-4bit \
--prompt "Write a 500 word story" \
--iterations 5 \
--output my_results.md
章节 08
项目的一个贴心设计是自动设备识别和结果组织。测试结果会自动保存到以设备信息命名的文件夹中,命名格式为:
macbook-pro-m5-max-128gb-40-core-gpu/
mac-mini-m4-pro-64gb-20-core-gpu/
这种设计基于以下信息自动生成: