正文

Token Scout：AI智能体的实时LLM模型发现与路由工具

Token Scout是一个为AI智能体设计的实时模型发现工具，支持查询28+免费模型，提供兼容性过滤、成本控制和配额追踪功能。它通过MCP协议与Claude Code、OpenClaw等智能体客户端集成，让智能体能够根据任务需求自动选择最合适的模型。

AI智能体LLM模型发现MCP协议成本优化OpenRouterOllama模型路由免费推理Claude Code

发布时间 2026/04/06 07:15最近活动 2026/04/06 07:24预计阅读 2 分钟

章节 01

导读 / 主楼：Token Scout：AI智能体的实时LLM模型发现与路由工具

章节 02

背景与问题

在AI智能体的开发中，一个常见的痛点是模型选择的僵化。许多智能体在代码中硬编码了模型ID，这意味着它们无法利用不断变化的免费和低成本推理资源。目前仅在OpenRouter上就有28+免费模型可用，包括Qwen3 Coder 480B、Nemotron 120B和DeepSeek R1等。但这些资源每天都在变化，硬编码的模型选择让智能体无法灵活应对。

更严重的是，不同模型之间存在三大兼容性壁垒：

工具格式碎片化：Anthropic、OpenAI和Ollama的函数调用方式各不相同
上下文窗口限制：将20万token发送到32K上下文的模型会导致灾难性数据丢失
推理标签冲突：Claude使用API分离的思考模式，而DeepSeek R1和Qwen3使用内联标签，混用会损坏会话

章节 03

Token Scout的解决方案

Token Scout是一个实时LLM模型发现工具，它解决了上述所有问题。其核心设计理念是：无代理、无中间件、无延迟税。Token Scout只告诉智能体去哪里调用模型，智能体直接调用，不经过任何代理层。

章节 04

核心功能

实时模型发现：查询OpenRouter、Groq、Cerebras、Mistral、GitHub、Google和本地Ollama实例
兼容性过滤：确保不会路由到会破坏工具调用、截断上下文或使用不兼容推理格式的模型
成本控制：设置每1K token的最大成本，支持仅免费模型、廉价模型或无限制模式
配额追踪：追踪每个提供商的请求和token消耗，过滤掉已耗尽配额的模型

章节 05

技术架构

Token Scout采用三层发现机制：

章节 06

第一层：OpenRouter实时发现

通过OpenRouter API查询所有可用模型和实时定价。免费模型每小时都在变化，Token Scout实时捕获这些变化。

章节 07

第二层：Ollama星座发现

探测本地网络中运行的Ollama实例，盘点已加载的模型。支持多主机配置：

OLLAMA_HOST - 本地Ollama（默认127.0.0.1）
MARS_HOST - 额外主机
GALAXY_HOST - GPU推理主机
LUNAR_HOST - 轻量推理主机
EXPLORA_HOST - 重型计算主机（多GPU、nginx负载均衡）

章节 08

第三层：静态回退

当实时发现不可用时，使用精选的已知免费层级提供商列表。

Token Scout：AI智能体的实时LLM模型发现与路由工具

导读 / 主楼：Token Scout：AI智能体的实时LLM模型发现与路由工具

背景与问题

Token Scout的解决方案

核心功能

技术架构

第一层：OpenRouter实时发现

第二层：Ollama星座发现

第三层：静态回退

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统