Zing 论坛

正文

asiai:Apple Silicon 本地 LLM 推理引擎的终极基准测试工具

介绍 asiai —— 专为 Apple Silicon Mac 设计的 LLM 推理引擎基准测试和监控 CLI 工具,支持 Ollama、LM Studio 等多引擎对比测试,提供详细的性能指标和社区排行榜功能。

asiaiApple Silicon基准测试OllamaLM StudioLLM性能测试Mac监控
发布时间 2026/03/31 06:42最近活动 2026/03/31 06:52预计阅读 5 分钟
asiai:Apple Silicon 本地 LLM 推理引擎的终极基准测试工具
1

章节 01

导读 / 主楼:asiai:Apple Silicon 本地 LLM 推理引擎的终极基准测试工具

介绍 asiai —— 专为 Apple Silicon Mac 设计的 LLM 推理引擎基准测试和监控 CLI 工具,支持 Ollama、LM Studio 等多引擎对比测试,提供详细的性能指标和社区排行榜功能。

2

章节 02

背景:Apple Silicon 上的 LLM 推理困境

随着 Apple Silicon(M1/M2/M3/M4 系列)在性能和能效比方面的出色表现,越来越多的开发者选择在 Mac 上运行本地大语言模型。然而,面对众多的推理引擎选择——Ollama、LM Studio、llama.cpp、mlx-lm、vLLM 等——如何确定哪个引擎在自己的硬件上表现最佳,成为一个棘手的问题。

每个引擎都有自己的优化策略和特性:Ollama 以易用性著称,LM Studio 提供优秀的图形界面,llama.cpp 是老牌 C++ 实现,而 mlx-lm 则针对 Apple Silicon 进行了专门优化。在没有客观数据的情况下,选择往往只能依靠主观感受或社区口碑。

3

章节 03

asiai 简介:数据驱动的引擎选择

asiai(Apple Silicon AI)是一款专为 Apple Silicon Mac 设计的命令行工具,它解决了上述问题。通过标准化的基准测试和实时监控,asiai 让用户能够客观比较不同推理引擎的性能表现,从而做出明智的选择。

该工具诞生于 OpenClaw 项目,当时开发者需要在 Mac Mini M4 Pro 上为多代理系统选择最快的推理引擎。这种「从实际需求出发」的设计背景,确保了 asiai 的功能都是实用且经过验证的。

4

章节 04

自动引擎检测

asiai 能够自动扫描本地运行的推理引擎,支持检测以下引擎:

  • Ollama(默认端口 11434)
  • LM Studio(默认端口 1234)
  • llama.cpp
  • mlx-lm
  • vllm-mlx

检测命令非常简单:

$ asiai detect

Detected engines:

 ● ollama 0.17.4
   URL: http://localhost:11434

 ● lmstudio 0.4.5
   URL: http://localhost:1234
   Running: 1 model(s)
   - qwen3.5-35b-a3b MLX
5

章节 05

跨引擎基准测试

这是 asiai 最核心的功能。它使用标准化的提示词(包括代码生成、工具调用、推理、长文本生成等类型),在多个引擎上运行相同的模型,然后对比性能指标。

基准测试报告包含以下关键指标:

  • tok/s:每秒生成的 token 数量,衡量生成速度
  • TTFT(Time To First Token):首 token 延迟,衡量响应速度
  • Duration:总耗时
  • VRAM:显存占用
  • Thermal:散热状态
  • Power:功耗(可选,需要 sudo powermetrics)

示例输出:

Benchmark: qwen3.5

 Engine   tok/s (±stddev)   Tokens   Duration   TTFT    VRAM     Thermal
 ────────── ───────────────── ───────── ────────── ──────── ────────── ──────────
 lmstudio   72.6 ± 0.0 (stable)   435   6.20s     0.28s   —        nominal
 ollama     30.4 ± 0.1 (stable)   448   15.28s    0.25s   26.0 GB  nominal

 Winner: lmstudio (2.4x faster)
 Power: lmstudio 13.2W (5.52 tok/s/W) — ollama 16.0W (1.89 tok/s/W)

从结果可以看出,在这个特定配置下,LM Studio 比 Ollama 快 2.4 倍,而且能效更高。

6

章节 06

实时监控与历史记录

asiai 可以持续监控系统状态和推理引擎指标,数据存储在本地 SQLite 数据库中,方便后续分析。

# 单次监控快照
asiai monitor

# 持续监控(每 60 秒刷新)
asiai monitor --watch 60

# 查看过去 24 小时的历史数据
asiai monitor --history 24h

监控数据包括:

  • 系统运行时间、CPU 负载
  • 内存使用情况和压力状态
  • 推理引擎状态、加载的模型、显存占用
  • 散热状态(nominal/fair/critical)
7

章节 07

守护进程模式

对于需要长期监控的场景,asiai 提供了 macOS launchd 守护进程支持:

asiai daemon start          # 安装并启动守护进程
asiai daemon start --interval 30  # 自定义采集间隔(秒)
asiai daemon status         # 检查运行状态
asiai daemon logs           # 查看日志
asiai daemon stop           # 停止并卸载
8

章节 08

社区排行榜与分享

asiai 内置了社区功能,用户可以匿名分享自己的基准测试结果,也可以查看其他用户的测试数据。

# 运行基准测试并分享结果
asiai bench --quick --card --share

# 查看社区排行榜
asiai leaderboard
asiai leaderboard --chip "M4 Pro"  # 按芯片筛选
asiai leaderboard --model qwen2.5   # 按模型筛选

# 与社区数据对比
asiai compare --chip "Apple M1 Max" --model qwen2.5:7b

分享功能会生成一张 1200x630 像素的基准测试卡片(SVG/PNG),包含模型信息、芯片规格、引擎对比图表和关键指标,非常适合在社交媒体或 GitHub README 中展示。