# Token Scout：AI智能体的实时LLM模型发现与路由工具

> Token Scout是一个为AI智能体设计的实时模型发现工具，支持查询28+免费模型，提供兼容性过滤、成本控制和配额追踪功能。它通过MCP协议与Claude Code、OpenClaw等智能体客户端集成，让智能体能够根据任务需求自动选择最合适的模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-05T23:15:39.000Z
- 最近活动: 2026-04-05T23:24:14.836Z
- 热度: 161.9
- 关键词: AI智能体, LLM模型发现, MCP协议, 成本优化, OpenRouter, Ollama, 模型路由, 免费推理, Claude Code
- 页面链接: https://www.zingnex.cn/forum/thread/token-scout-aillm
- Canonical: https://www.zingnex.cn/forum/thread/token-scout-aillm
- Markdown 来源: ingested_event

---

# Token Scout：AI智能体的实时LLM模型发现与路由工具

## 背景与问题

在AI智能体的开发中，一个常见的痛点是**模型选择的僵化**。许多智能体在代码中硬编码了模型ID，这意味着它们无法利用不断变化的免费和低成本推理资源。目前仅在OpenRouter上就有28+免费模型可用，包括Qwen3 Coder 480B、Nemotron 120B和DeepSeek R1等。但这些资源每天都在变化，硬编码的模型选择让智能体无法灵活应对。

更严重的是，不同模型之间存在三大兼容性壁垒：

1. **工具格式碎片化**：Anthropic、OpenAI和Ollama的函数调用方式各不相同
2. **上下文窗口限制**：将20万token发送到32K上下文的模型会导致灾难性数据丢失
3. **推理标签冲突**：Claude使用API分离的思考模式，而DeepSeek R1和Qwen3使用内联标签，混用会损坏会话

## Token Scout的解决方案

Token Scout是一个实时LLM模型发现工具，它解决了上述所有问题。其核心设计理念是：**无代理、无中间件、无延迟税**。Token Scout只告诉智能体去哪里调用模型，智能体直接调用，不经过任何代理层。

### 核心功能

- **实时模型发现**：查询OpenRouter、Groq、Cerebras、Mistral、GitHub、Google和本地Ollama实例
- **兼容性过滤**：确保不会路由到会破坏工具调用、截断上下文或使用不兼容推理格式的模型
- **成本控制**：设置每1K token的最大成本，支持仅免费模型、廉价模型或无限制模式
- **配额追踪**：追踪每个提供商的请求和token消耗，过滤掉已耗尽配额的模型

## 技术架构

Token Scout采用三层发现机制：

### 第一层：OpenRouter实时发现
通过OpenRouter API查询所有可用模型和实时定价。免费模型每小时都在变化，Token Scout实时捕获这些变化。

### 第二层：Ollama星座发现
探测本地网络中运行的Ollama实例，盘点已加载的模型。支持多主机配置：
- `OLLAMA_HOST` - 本地Ollama（默认127.0.0.1）
- `MARS_HOST` - 额外主机
- `GALAXY_HOST` - GPU推理主机
- `LUNAR_HOST` - 轻量推理主机
- `EXPLORA_HOST` - 重型计算主机（多GPU、nginx负载均衡）

### 第三层：静态回退
当实时发现不可用时，使用精选的已知免费层级提供商列表。

## 兼容性画像系统

每个发现的模型都会获得一个兼容性画像，包含以下维度：

| 字段 | 说明 |
|------|------|
| `reasoning_format` | 思考暴露方式：`api_separated`、`inline_tags`、`hidden`、`none` |
| `reasoning_tag` | 内联标签名称（如`think`） |
| `tool_format` | 工具格式：`anthropic`、`openai_function`、`ollama`、`none` |
| `tool_reliability` | 工具可靠性：`native`（已测试）、`claimed`（API声称支持）、`none` |
| `max_completion` | 输出token限制 |
| `modality` | 输入模态：`text`、`text+image`等 |

## 支持的提供商

### 云端提供商（免费层级）

| 提供商 | 模型示例 | 获取密钥 |
|--------|----------|----------|
| Groq | Llama 4 Scout/Maverick、Kimi K2、Qwen3 32B | console.groq.com |
| Cerebras | Llama 3.3 70B、Llama 4 Scout | cloud.cerebras.ai |
| Mistral | Mistral Small 3.1 24B | console.mistral.ai |
| OpenRouter | 28+免费，600+付费 | openrouter.ai |
| GitHub Models | GPT-4o、DeepSeek R1、Grok 3 Mini | github.com/marketplace/models |
| Google AI | Gemini 2.0 Flash（1M上下文） | aistudio.google.com |

### 本地提供商（Ollama）
本地模型完全免费（仅需电费），配额无限。

## 使用方式

Token Scout提供两种使用方式：

### Rust CLI
```bash
git clone https://github.com/jackccrawford/token-scout.git
cd token-scout
cargo build --release

# JSON-RPC over stdin/stdout
echo '{"jsonrpc":"2.0","id":1,"method":"scout","params":{"query":"reasoning"}}' | ./target/release/token-scout
```

### Python MCP服务器
```bash
pip install -e .

# 添加到Claude Code
claude mcp add token-scout -- token-scout
```

## API设计

Token Scout提供简洁的API：

```python
token_scout(query="reasoning code", require={"reasoning_format": "inline_tags", "min_context": 32000})
# -> 33个模型：Qwen3 Coder、DeepSeek R1蒸馏版、Qwen3.6 Plus...

token_scout(query="fast classification")
# -> Groq上的Llama 3.1 8B、Cerebras上的Llama 4 Scout...

token_scout(query="", prefer="context")
# -> 按上下文窗口大小排序的所有模型
```

### 偏好选项
- `quota` - 剩余请求最多的模型
- `speed` - 最快的模型
- `context` - 最大上下文窗口
- `budget` - 考虑Claude预算感知

### 硬性约束
- `reasoning_format` - 推理格式要求
- `tool_format` - 工具格式要求
- `min_context` - 最小上下文窗口
- `min_completion` - 最小输出限制
- `modality` - 输入模态要求

## 成本门控

通过`TOKEN_SCOUT_MAX_COST`环境变量控制最大成本：
- `0` - 仅免费模型
- `0.001` - 免费+非常便宜（默认，约$1/M tokens）
- `0.01` - 包括中档模型
- 未设置 - 默认`0.001`

## 预算感知

Token Scout读取`/tmp/claude-usage.json`来追踪Claude会话和周使用量。当预算紧张时，自动优先选择免费和本地模型。

## 实际应用场景

1. **智能体编码助手**：将子任务（摘要、搜索、起草）路由到免费模型，主智能体保持使用高级模型
2. **多模型流水线**：为每个阶段选择正确的模型：快速/廉价用于分类，推理能力用于分析，深上下文用于综合
3. **成本优化**：停止为免费模型能处理的任务付费
4. **本地优先AI**：在接触云端API之前，发现和使用自己硬件上的Ollama模型
5. **舰队协调**：多个智能体共享Token Scout实例，配额追踪防止任何单个智能体耗尽提供商

## 技术亮点

- **实时发现**：每次查询都反映当前实际可用的模型
- **零代理架构**：智能体直接调用模型，无中间层
- **兼容性保证**：过滤会破坏智能体的模型
- **多协议支持**：支持Anthropic、OpenAI、Ollama等多种API风格
- **本地云混合**：无缝集成云端和本地Ollama实例

## 结语

Token Scout代表了AI智能体基础设施的一个重要发展方向：从静态模型选择转向动态模型发现。在模型生态系统日益丰富的今天，智能体需要能够实时适应变化，选择最合适的推理资源。Token Scout以其简洁的设计和强大的功能，为这一领域提供了一个实用的解决方案。