Zing 论坛

正文

tps.sh:本地与云端大语言模型性能基准测试工具

tps.sh是一款专注于大语言模型性能测试的开源工具,通过147项测试比较本地Ollama模型与Claude API等云端服务的tokens per second性能,帮助用户在Apple Silicon设备上做出最优部署决策。

tps.sh大语言模型基准测试tokens per secondOllamaClaude APIApple Silicon本地部署云端API性能测试LLM评估
发布时间 2026/04/30 08:14最近活动 2026/04/30 10:06预计阅读 2 分钟
tps.sh:本地与云端大语言模型性能基准测试工具
1

章节 01

【导读】tps.sh:本地与云端LLM性能基准测试工具核心介绍

tps.sh是一款专注于大语言模型(LLM)性能测试的开源工具,核心目标是通过147项测试对比本地Ollama模型与云端Claude API的tokens per second(TPS)性能,帮助用户在Apple Silicon设备上做出最优部署决策。该工具消除了性能评估的技术门槛,封装复杂测试逻辑为简洁命令行界面,支持跨平台运行,为开发者和用户提供数据驱动的LLM部署参考。

2

章节 02

工具背景与设计定位

在LLM实际应用中,性能是关键考量因素,但传统性能评估需复杂脚本和技术背景。tps.sh设计目标明确:提供简单直观的工具,让用户轻松比较不同LLM性能。工具特别针对Apple Silicon架构优化,利用其神经网络引擎和统一内存架构;同时支持Windows系统,扩大适用范围,降低性能评估门槛。

3

章节 03

测试体系与多维度评估

tps.sh内置147个覆盖多种场景的测试用例(含文本生成、代码补全、逻辑推理等),使用21个典型样本提示输入。核心功能是并行测试本地Ollama模型(Apple Silicon设备)与云端Claude API服务。评估维度包括:处理速度(TPS)、生成质量、云端成本分析、资源占用(CPU/内存/GPU),实现多维度性能对比。

4

章节 04

技术实现与架构优化

tps.sh针对Apple Silicon优化:自动利用神经网络引擎加速推理,借助统一内存架构减少数据传输开销。Windows版本支持多种本地LLM运行时或云端API测试,系统要求为Windows10+、8GB内存、2GHz处理器等。工具支持7种模型测试,通过配置文件指定模型路径、API参数等,配置机制灵活可扩展。

5

章节 05

使用流程与结果解读

安装:从GitHub下载预编译二进制或安装包,Windows用户可选.exe或.zip。运行:命令行输入tps.sh,自动加载配置执行7个模型的147项测试,实时显示进度。结果:生成详细报告,含总体性能排名、任务类型分析、成本效益权衡、原始数据表,帮助用户快速识别性能瓶颈与部署优劣。

6

章节 06

实际应用场景与价值

tps.sh的应用场景包括:硬件选型决策(评估现有设备是否满足本地部署需求)、模型选择参考(客观对比开源/商业模型的性能/质量/成本)、部署模式评估(本地与云端的场景适配性)、性能监控优化(建立基线并定期检测性能变化)。

7

章节 07

社区生态与未来展望

tps.sh作为开源项目,拥有活跃GitHub社区,用户可提交问题、分享结果、贡献代码。未来计划:增加更多模型与平台支持,扩展测试覆盖范围,引入先进性能分析功能。工具填补LLM性能评估空白,推动生态优化,有望成为LLM性能评估标准工具之一。