# Custom LLM Router：构建本地优先的智能模型路由系统

> 一个类似 OpenRouter 的通用 LLM 自动路由系统，支持本地模型优先策略，兼容 OpenAI API 格式，能够根据意图、复杂度和成本智能选择最优模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-24T16:42:22.000Z
- 最近活动: 2026-04-24T16:51:37.238Z
- 热度: 143.8
- 关键词: LLM Router, 本地推理, Ollama, LM Studio, OpenAI API, 模型路由, 意图分类, 隐私保护, 成本优化
- 页面链接: https://www.zingnex.cn/forum/thread/custom-llm-router
- Canonical: https://www.zingnex.cn/forum/thread/custom-llm-router
- Markdown 来源: ingested_event

---

# Custom LLM Router：构建本地优先的智能模型路由系统

## 项目概述

Custom LLM Router 是一个开源的通用大语言模型自动路由系统，旨在成为 OpenRouter 的本地替代方案。它采用本地优先的设计理念，在保护数据隐私的同时降低使用成本，同时提供与 OpenAI API 完全兼容的接口，让现有应用无需修改即可接入。

## 核心设计理念

该项目的核心思想是**本地优先、智能回退**。在当今 AI 应用开发中，开发者常常面临两难选择：使用云端 API 意味着数据离开本地、产生持续费用；而完全依赖本地模型又可能在复杂任务上表现不佳。Custom LLM Router 通过智能路由解决了这一矛盾。

系统架构采用分层设计：应用层通过标准的 OpenAI SDK 发送请求，路由层根据请求特征进行分类决策，执行层则优先调用本地模型（Ollama 或 LM Studio），仅在必要时回退到云端服务。这种设计既保证了数据隐私，又确保了任务质量。

## 意图分类与智能路由

Custom LLM Router 的亮点在于其**意图感知的路由机制**。系统内置了一个轻量级分类器（默认使用 qwen2.5-3b），能够将用户请求归类到 14 个预定义类别：

- 简单查询（simple）
- 事实检索（factual）
- 代码编写（coding）
- 代码重构（refactor）
- 调试排错（debugging）
- 任务规划（planning）
- 逻辑推理（reasoning）
- 仓库级分析（repo-wide）
- 创意生成（creative）
- 视觉处理（vision）
- 音频处理（audio）
- 图像生成（image-creation）
- 多步骤任务（multi-step）
- 未知类型（unknown）

基于分类结果和置信度分数，系统会做出路由决策：高置信度请求优先路由到本地模型，中等置信度可能触发云端主模型，低置信度则启用更强大的云端备选模型。这种分层策略确保了简单任务在本地快速完成，复杂任务获得足够的能力支持。

## 本地推理支持

项目对本地推理提供了完善的支持，兼容两种主流方案：

**Ollama 集成**：作为默认本地提供商，Ollama 提供了便捷的模型管理和推理服务。用户只需通过 `ollama pull` 下载所需模型，即可在本地运行从 3B 到 70B 参数的各类开源模型。

**LM Studio 支持**：对于偏好图形界面管理的用户，系统也支持 LM Studio 的 OpenAI 兼容服务器。LM Studio 的优势在于提供更直观的模型下载和管理体验，特别适合非技术背景的用户。

当两者同时配置时，系统会优先使用 LM Studio，将 Ollama 作为后备方案，确保服务的连续性。

## 云端回退与自定义提供商

虽然强调本地优先，但 Custom LLM Router 同样重视云端能力的无缝集成。系统内置对多个主流云服务商的支持：

- **OpenRouter**：聚合多家模型提供商的统一接口
- **DashScope**：阿里云的模型服务平台
- **Anthropic Claude**：直接对接 Claude 系列模型
- **OpenAI**：原生支持 GPT 系列模型

更灵活的是，系统允许通过环境变量 `CUSTOM_PROVIDERS` 添加任意 OpenAI 兼容的自定义提供商。无论是 Groq、Together AI 这样的托管服务，还是基于 vLLM、LocalAI 的自建推理服务器，都可以轻松接入路由系统。

## Web 仪表盘与可观测性

Custom LLM Router 不仅是一个后端服务，还提供了完整的 Web 管理界面：

- **概览仪表盘**：展示请求统计、延迟分布、成本趋势等关键指标
- **提供商管理**：实时监控各提供商健康状态，动态调整路由权重
- **路由测试**：输入任意提示词，实时查看分类结果和路由决策
- **请求追踪**：基于 SQLite 的详细日志记录，支持请求级别的成本核算

这种内置的可观测性对于生产环境部署至关重要。开发者可以清楚地了解系统运行状况，识别瓶颈，优化路由策略。

## 使用场景与价值

Custom LLM Router 适用于多种实际场景：

**企业隐私合规**：对于处理敏感数据的组织，本地优先策略确保核心数据不离开内网，仅在必要时才接触外部服务。

**成本优化**：通过将简单查询路由到免费的本地模型，可以显著降低云端 API 调用费用。根据实际测试，约 60-70% 的日常查询可以被本地模型妥善处理。

**模型能力互补**：不同模型各有所长。本地小模型响应快、成本低，适合简单任务；云端大模型能力强，适合复杂推理。智能路由让两者协同工作，发挥各自优势。

**开发测试环境**：在开发和测试阶段，完全依赖本地模型可以消除 API 调用成本和网络依赖，加速迭代周期。

## 技术实现细节

项目采用 Python 3.11+ 和 FastAPI 构建，代码结构清晰：

- `classifier/`：提示词分类模块，基于本地小模型实现
- `providers/`：提供商抽象层，统一封装各类推理服务
- `router/`：核心路由逻辑，实现分类-决策-执行流程
- `dashboard/`：Web 界面，基于现代前端技术栈

配置管理采用 Pydantic Settings，支持环境变量和 YAML 文件两种方式。路由规则定义在 `routing_rules.yaml` 中，每个类别可配置本地模型、云端主备模型以及延迟和成本的约束条件。

## 部署与扩展

Custom LLM Router 支持多种部署方式：

**本地开发**：通过 pip 安装依赖，直接运行 uvicorn 即可启动服务。

**Docker 部署**：提供完整的 Docker Compose 配置，一键启动路由服务、Redis 缓存等组件。

**生产扩展**：基于 FastAPI 的异步架构天然支持高并发，可通过水平扩展应对流量增长。SQLite 日志可迁移到 PostgreSQL 等生产级数据库。

## 总结与展望

Custom LLM Router 代表了 LLM 应用架构的一个重要方向：在享受大模型能力的同时，保持对数据和成本的控制。它不是要取代云端服务，而是提供一种更灵活、更经济、更安全的混合方案。

随着开源模型能力的持续提升，本地优先策略的适用范围将不断扩大。Custom LLM Router 的模块化设计使其能够轻松集成新的模型和提供商，持续为用户提供最优的推理体验。对于希望构建私有化 AI 基础设施的团队来说，这是一个值得深入研究和部署的项目。
