Zing 论坛

正文

Token Scout:AI智能体的实时LLM模型发现与路由工具

Token Scout是一个为AI智能体设计的实时模型发现工具,支持查询28+免费模型,提供兼容性过滤、成本控制和配额追踪功能。它通过MCP协议与Claude Code、OpenClaw等智能体客户端集成,让智能体能够根据任务需求自动选择最合适的模型。

AI智能体LLM模型发现MCP协议成本优化OpenRouterOllama模型路由免费推理Claude Code
发布时间 2026/04/06 07:15最近活动 2026/04/06 07:24预计阅读 2 分钟
Token Scout:AI智能体的实时LLM模型发现与路由工具
1

章节 01

导读 / 主楼:Token Scout:AI智能体的实时LLM模型发现与路由工具

Token Scout是一个为AI智能体设计的实时模型发现工具,支持查询28+免费模型,提供兼容性过滤、成本控制和配额追踪功能。它通过MCP协议与Claude Code、OpenClaw等智能体客户端集成,让智能体能够根据任务需求自动选择最合适的模型。

2

章节 02

背景与问题

在AI智能体的开发中,一个常见的痛点是模型选择的僵化。许多智能体在代码中硬编码了模型ID,这意味着它们无法利用不断变化的免费和低成本推理资源。目前仅在OpenRouter上就有28+免费模型可用,包括Qwen3 Coder 480B、Nemotron 120B和DeepSeek R1等。但这些资源每天都在变化,硬编码的模型选择让智能体无法灵活应对。

更严重的是,不同模型之间存在三大兼容性壁垒:

  1. 工具格式碎片化:Anthropic、OpenAI和Ollama的函数调用方式各不相同
  2. 上下文窗口限制:将20万token发送到32K上下文的模型会导致灾难性数据丢失
  3. 推理标签冲突:Claude使用API分离的思考模式,而DeepSeek R1和Qwen3使用内联标签,混用会损坏会话
3

章节 03

Token Scout的解决方案

Token Scout是一个实时LLM模型发现工具,它解决了上述所有问题。其核心设计理念是:无代理、无中间件、无延迟税。Token Scout只告诉智能体去哪里调用模型,智能体直接调用,不经过任何代理层。

4

章节 04

核心功能

  • 实时模型发现:查询OpenRouter、Groq、Cerebras、Mistral、GitHub、Google和本地Ollama实例
  • 兼容性过滤:确保不会路由到会破坏工具调用、截断上下文或使用不兼容推理格式的模型
  • 成本控制:设置每1K token的最大成本,支持仅免费模型、廉价模型或无限制模式
  • 配额追踪:追踪每个提供商的请求和token消耗,过滤掉已耗尽配额的模型
5

章节 05

技术架构

Token Scout采用三层发现机制:

6

章节 06

第一层:OpenRouter实时发现

通过OpenRouter API查询所有可用模型和实时定价。免费模型每小时都在变化,Token Scout实时捕获这些变化。

7

章节 07

第二层:Ollama星座发现

探测本地网络中运行的Ollama实例,盘点已加载的模型。支持多主机配置:

  • OLLAMA_HOST - 本地Ollama(默认127.0.0.1)
  • MARS_HOST - 额外主机
  • GALAXY_HOST - GPU推理主机
  • LUNAR_HOST - 轻量推理主机
  • EXPLORA_HOST - 重型计算主机(多GPU、nginx负载均衡)
8

章节 08

第三层:静态回退

当实时发现不可用时,使用精选的已知免费层级提供商列表。