正文

llm-speedtest-mcp：零遥测的LLM推理速度基准测试MCP服务器

一个轻量级的MCP服务器工具，允许用户在本地AI工具中直接对多个LLM提供商进行标准化的推理速度测试，测量TTFT、TPS等关键指标，代码少于500行，零遥测、零数据收集，完全隐私安全。

llm-speedtest-mcpMCP服务器LLM基准测试推理速度零遥测隐私保护TTFTTPSClaude DesktopCursor集成

发布时间 2026/05/05 13:05最近活动 2026/05/05 13:23预计阅读 3 分钟

章节 01

导读：llm-speedtest-mcp——零遥测的LLM推理速度基准测试工具

llm-speedtest-mcp是一款轻量级MCP服务器工具，旨在帮助用户在本地AI工具中对多个LLM提供商进行标准化推理速度测试。它支持测量TTFT（首token时间）、TPS（每秒token生成数）等关键指标，代码少于500行，坚持零遥测、零数据收集原则，确保隐私安全。该工具可无缝集成到Claude Desktop、Cursor等支持MCP协议的AI工具中，解决了LLM用户难以获取可靠、可比推理速度数据的痛点。

章节 02

项目背景与动机

随着LLM生态发展，开发者和用户面临选择困境：价格、质量、上下文长度外，推理速度对实时交互场景（如聊天机器人、代码补全）至关重要。但提供商文档常给出理论值，实际性能受网络延迟、负载等影响，可靠数据难获取。llm-speedtest-mcp借鉴speedtest.net理念，将LLM速度测试集成到AI工作流，且优先保障隐私。

章节 03

MCP协议与工具定位

MCP（Model Context Protocol）是Anthropic推出的开放协议，标准化AI模型与外部工具的集成方式，允许AI助手（如Claude Desktop、Cursor）通过接口调用外部功能。llm-speedtest-mcp作为MCP服务器，将LLM速度测试能力暴露给支持MCP的AI工具，用户可在熟悉的对话界面触发测试。

章节 04

核心功能与使用指南

安装配置：支持npm全局安装（npm install -g llm-speedtest-mcp）或npx直接运行；Claude/Cursor用户需在对应配置文件添加MCP服务器信息，输入benchmark my models即可触发测试。

支持提供商：内置OpenAI、Anthropic、Groq、OpenRouter、DeepSeek、MiniMax、智谱AI、Kimi等主流厂商。

关键指标：TTFT（首token时间，ms）、TPS（每秒token数）、总延迟、token总数。

结果展示：格式化表格列出各提供商/模型数据，自动标注最快选项。

章节 05

隐私安全设计细节

该工具以隐私优先为核心：1. 密钥本地存储：仅从环境变量读取API密钥，不记录到控制台或错误信息；2. 直连提供商：API调用直接从本地发送到目标端点，无代理/中继；3. 零数据持久化：无数据库、日志或文件写入；4. 极简依赖：仅依赖MCP SDK，代码少于500行，易审计。所有敏感信息（如密钥）永不离开用户机器。

章节 06

技术亮点与应用场景

技术亮点：标准化测试流程（相同提示词、流式API测量指标、控制输出token数）；自动检测已配置提供商（通过环境变量）；支持单一模型自定义测试（指定模型、提示词）。

应用场景：提供商/模型选型（比较速度）、网络质量评估（对比不同时间结果）、故障排查（判断响应慢原因）、成本效益分析（结合价格数据）。

章节 07

局限性与未来展望

局限性：测试结果受提示复杂度、输出长度、并发负载、地理位置影响，建议多次取平均；提供商可能更新模型/基础设施；不适用于生产环境监控。

未来方向：支持更多LLM提供商、增加质量评估维度、历史数据追踪、自定义测试场景配置。

llm-speedtest-mcp：零遥测的LLM推理速度基准测试MCP服务器

导读：llm-speedtest-mcp——零遥测的LLM推理速度基准测试工具

项目背景与动机

MCP协议与工具定位

核心功能与使用指南

隐私安全设计细节

技术亮点与应用场景

局限性与未来展望

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

从零构建现代LLM：一个教学级的Llama风格语言模型实现