# fast-slow-llm：借鉴认知科学的双系统智能路由网关

> fast-slow-llm 是一个受丹尼尔·卡尼曼《思考，快与慢》启发的 LLM 网关系统，通过智能路由将查询动态分配给快速廉价的 System 1 模型或深度推理的 System 2 模型，在保持响应质量的同时实现高达 99% 的 API 成本节约。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-09T14:38:25.000Z
- 最近活动: 2026-05-09T14:51:46.516Z
- 热度: 159.8
- 关键词: 大语言模型, 智能路由, 成本优化, 双系统理论, System 1, System 2, 推理模型, API 网关
- 页面链接: https://www.zingnex.cn/forum/thread/fast-slow-llm
- Canonical: https://www.zingnex.cn/forum/thread/fast-slow-llm
- Markdown 来源: ingested_event

---

## 认知科学启发的架构设计

丹尼尔·卡尼曼在《思考，快与慢》中提出了人类思维的双系统理论：System 1 是快速、直觉、自动化的思维模式，而 System 2 是缓慢、理性、需要努力的分析模式。fast-slow-llm 项目巧妙地将这一认知科学概念应用于大语言模型的推理架构设计中。

在实际应用中，并非所有查询都需要复杂的深度推理。简单的问候、事实查询或常规问题用轻量级模型就能处理得很好，而复杂的分析、多步骤推理或创造性任务才需要调用强大的推理模型。fast-slow-llm 正是基于这一观察，构建了一个智能路由层来自动区分这两类查询。

## 系统架构与工作流程

fast-slow-llm 的核心是一个路由代理（Router Agent），它负责评估每个传入查询的复杂度，并给出 1-10 的评分。基于这个评分，系统决定将查询路由到哪个处理路径：

**System 1（快速路径）**：评分 ≤ 5 的查询被路由到轻量级、低成本的语言模型。这些模型响应速度快、token 成本低，适合处理简单直接的问题。

**System 2（深度路径）**：评分 > 5 的查询被路由到强大的推理模型（如 o1-preview）。这些模型虽然成本高昂，但能够处理需要多步推理的复杂任务。

整个流程并非简单的单次路由。System 1 的响应会经过一个质量评估器（Evaluator）进行校验。如果评估得分低于 0.6，系统会自动将查询回退到 System 2 进行重新处理，确保最终输出质量。

## 核心功能特性

### 智能复杂度分类

路由代理使用精心设计的提示词和评估标准来判断查询复杂度。它会考虑问题的模糊程度、所需的推理步骤数、领域专业性以及潜在的歧义性等因素。这种细粒度的分类比简单的关键词匹配更加准确。

### 显著的成本节约

项目通过"影子账本"（Shadow Ledger）机制模拟真实成本。System 1 采用 gpt-4o-mini 的定价（每百万 token 输入 $0.15，输出 $0.60），而 System 2 采用 o1-preview 的定价（每百万 token 输入 $15.00，输出 $60.00）。

实测数据显示，对于简单查询如"你好"或"你们的营业时间是什么"，成本节约可达 99.9%。即使是中等复杂度的查询，也能实现显著的成本降低。只有在真正需要深度推理的复杂问题上，系统才会 incur 高成本。

### 幻觉防护机制

一个有趣且重要的发现是，过度"乐于助人"的推理模型可能会产生业务风险。当询问"你们接受哪些支付方式"时，System 2 模型可能会生成包含 Amazon Pay、店内支付甚至加密货币等实际上并不支持的选项的详细回答。

fast-slow-llm 的路由机制能够识别这类简单信息查询，将其路由到 System 1。轻量级模型由于训练数据的约束，倾向于给出安全、通用的回答，而不是进行"创造性"扩展，从而避免了潜在的客服灾难。

### 实时指标追踪

系统内置了完整的指标追踪功能，包括 token 使用量、成本估算和延迟测量。开发者可以通过仪表板实时监控每个查询的路由决策、处理路径和资源消耗。

### 对比模式

为了便于评估路由策略的效果，系统提供了对比模式，可以同时显示路由决策结果和始终使用昂贵模型的结果。这有助于开发者理解智能路由带来的实际价值。

## 实际案例分析

### 案例一：简单查询处理

**查询**："你们接受哪些支付方式？"

**System 1 响应**（简洁准确）：
我们接受信用卡（Visa、Mastercard、Amex）、PayPal 和银行转账。

**System 2 响应**（过度详细且包含幻觉）：
感谢您的咨询。我们致力于提供灵活便捷的支付选择...

主要支付方式：
- 信用卡/借记卡：Visa、Mastercard、American Express、Discover、Diners Club
- 网上银行、PayPal

替代支付方式：
- Apple Pay、Google Pay
- Amazon Pay ❌
- 银行转账

特殊情况：
- 店内支付 ❌
- 加密货币：我们正在探索未来整合的选项...

（400+ 词，包含虚构信息）

**结果对比**：
- System 1：18 token，成本 $0.000008
- System 2：380 token，成本 $0.0285
- 节约：99.9%

### 案例二：复杂查询处理

对于真正需要深度推理的多步骤问题，系统正确识别出高复杂度，直接路由到 System 2，确保获得高质量的推理结果。

## 技术实现细节

fast-slow-llm 基于 LangChain 和 LangSmith 构建，提供了完整的可观测性支持。系统支持本地模型部署（通过 Ollama），也支持调用 OpenAI 等商业 API。

项目的模块化设计使得各个组件可以独立配置和替换。路由代理、评估器和两个系统后端都有清晰的接口定义，便于根据具体需求进行定制。

## 应用场景与价值

fast-slow-llm 特别适合以下场景：

**客服自动化**：处理大量简单查询时显著降低成本，同时确保复杂问题得到妥善处理。

**内容审核**：快速过滤明显合规/违规内容，将边界案例交给更强大的模型判断。

**智能助手**：根据用户查询的实时复杂度动态调整处理能力，平衡体验与成本。

**企业知识库**：区分常见问题和深度咨询，优化资源分配。

## 总结与展望

fast-slow-llm 展示了如何将认知科学的洞见转化为实用的工程方案。通过借鉴人类思维的双系统理论，该项目为 LLM 应用的成本优化提供了一个优雅的解决思路。

其核心启示在于：智能不仅仅是使用最强大的模型解决所有问题，而是知道何时使用什么资源。这种"恰到好处"的智能分配，正是实现可持续、可扩展 AI 应用的关键。

随着模型能力的不断提升和成本的持续分化，类似 fast-slow-llm 的智能路由架构可能会成为 LLM 应用的标准配置，帮助开发者在性能与成本之间找到最优平衡点。
