# FreeRelay：可编程AI推理控制平面与智能路由网关

> FreeRelay是一个开源的AI推理网关，通过智能路由在免费和付费LLM提供商之间自动选择最优后端，支持任务复杂度检测、断路器保护、预算预测和多步骤执行DAG。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-01T21:12:51.000Z
- 最近活动: 2026-04-01T21:24:34.482Z
- 热度: 161.8
- 关键词: AI网关, 智能路由, LLM提供商, OpenAI兼容, 断路器, 预算控制, 多步骤DAG, 可观测性, 任务复杂度检测
- 页面链接: https://www.zingnex.cn/forum/thread/freerelay-ai
- Canonical: https://www.zingnex.cn/forum/thread/freerelay-ai
- Markdown 来源: ingested_event

---

# FreeRelay：可编程AI推理控制平面与智能路由网关

## 解决AI推理的现实痛点

随着大语言模型生态的蓬勃发展，开发者和企业面临着一个日益复杂的挑战：如何在众多提供商之间做出最优选择。免费AI服务层级虽然诱人，但碎片化严重——Groq、Google AI Studio、OpenRouter、Together、Mistral等平台各自拥有不同的API格式、速率限制和可靠性特征。更糟糕的是，当应用遇到429速率限制错误时，整个流水线可能陷入停滞。

简单任务的过度消费与复杂任务的资源不足并存，缺乏智能路由机制意味着宝贵的付费额度被浪费在完全可以由免费服务处理的请求上。FreeRelay正是为解决这些现实痛点而设计的自托管AI网关，它能够为每个请求自动选择最佳提供商。

## 三种运行模式与核心架构

FreeRelay提供三种运行模式以适应不同场景。免费模式仅使用免费提供商，适合预算敏感的应用；付费模式仅使用OpenAI和Anthropic，追求最高质量；自动模式则是推荐配置，默认使用免费服务，但对复杂任务智能切换到付费提供商。

系统架构采用清晰的分层设计。客户端应用通过OpenAI兼容API与FreeRelay网关通信，网关内部执行请求验证、任务复杂度检测、智能提供商路由、断路器保护和预算预测。路由决策综合考虑学习到的成功概率、质量评分、模式合规估计、延迟/成本/安全效用、租户策略权重、电路状态和预算健康度，以及UCB探索奖励。

## 任务复杂度检测与智能路由

FreeRelay的核心竞争力在于其精细的任务分析能力。每个请求在不到5毫秒的时间内被从十个维度进行画像：任务家族、深度、精度、延迟类别、上下文拓扑、工具需求、确定性要求、安全等级、输出契约和经济约束。这一分析完全不依赖LLM调用，确保了低开销和高吞吐量。

上下文优化器对历史记录进行显著性排序，打包最高价值的通道（指令、记忆、事实、工具、草稿），并在执行前根据提供商特征重写提示词。路由引擎使用期望效用公式对每个提供商-模型组合进行评分，最终选择效用最高的选项。

策略DSL规则可以表达复杂的业务逻辑：优先/要求/排除特定提供商、限制温度参数、启用对冲策略或在响应离开系统前融合验证器。

## 免费与付费提供商生态

FreeRelay集成了丰富的提供商生态。免费层级包括Groq（支持llama-3.1、mixtral-8x7b，30 RPM，以速度见长）、Google（gemini-1.5-flash，15 RPM，大上下文优势）、OpenRouter（llama-3.1、mistral-7b，20 RPM，模型最丰富）、Together AI（llama-3.1、qwen2，60 RPM，批处理友好）、Mistral（mistral-small，多语言支持）和NVIDIA（llama-3.1、mixtral，40 RPM，GPU优化）。

付费层级则涵盖OpenAI（gpt-4o、gpt-4o-mini，综合最佳）和Anthropic（claude-3.5-sonnet，长上下文专长）。这种分层设计使应用能够在成本和质量之间灵活权衡，而无需修改代码。

## 多步骤执行DAG与工作流编排

FreeRelay超越了简单的请求代理，引入了执行图的概念来替代一次性请求。工作流可以链式组合分类器、生成器、验证器、评判器、修复有限状态机、工具节点、推测分解器和对冲策略，通过条件转换（如验证失败、工具错误等）实现复杂的控制流。

验证采用分层架构：结构层检查JSON/AST/模式合规，语义层应用启发式和spaCy分析，异步评判器提供深度质量评估。失败触发修复尝试（更强的提示词、确定性解码、提供商升级），确保最终输出的可靠性。

## 弹性机制与可观测性

系统内置了全面的弹性保护机制。断路器采用Lua支持的CLOSED/HALF_OPEN/OPEN三态模型，EWMA预算预测器提供前瞻性成本控制，AIMD拥塞控制算法动态调整并发度，褐化模式和混沌工程模式则用于测试系统韧性。

流式传输采用反压SSE代理，配合有界队列和确定性恢复机制处理长时间运行任务。语义缓存使用datasketch MinHash+LSH技术去重相似提示词，显著降低重复请求的API成本。

可观测性层面，系统暴露Prometheus指标、OpenTelemetry追踪和结构化日志，涵盖模式通过率、重试分类、幻觉信号和提供商漂移等关键指标。控制平面维护租户策略对象、能力注册表、基准目录、实验系统（影子路由、A/B测试、重放模拟器）和经济引擎。

## 广泛的平台集成

FreeRelay提供了与众多流行开发工具的即插即用集成。Continue.dev只需简单配置即可使用；LangChain通过标准的OpenAI适配器接入；Node.js/TypeScript开发者可以使用熟悉的OpenAI SDK；Open WebUI只需设置API基础URL即可无缝切换。

特别值得一提的是与OpenClaw的深度集成。用户可以通过命令行向导或手动配置，将FreeRelay作为OpenClaw的后端提供商，享受工作负载感知路由带来的成本优化。与OpenCode和Codex CLI的集成则使FreeRelay能够作为编码助手的智能后端，根据任务复杂度自动选择最合适的模型。

## v3 MAX规范与路线图

FreeRelay基于v3 MAX推理规范构建，这是一个全面的推理操作系统设计文档。规范详细描述了控制平面/数据平面分离、Redis模式、工作负载画像模式、路由决策审计追踪、期望效用数学、DAG引擎、验证器/修复循环、能力基准测试和14天构建计划。

路线图分为三个阶段：第1-5天交付OpenAI线格式、提供商适配器、流式/反压、断路器、预算预测和多提供商执行；第6-10天交付画像器、期望效用路由、语义缓存、上下文管道、验证层和修复FSM；第11-14天交付执行DAG引擎、控制平面学习器/基准/异常系统、可观测性/仪表板、Docker组合栈和最终文档/CI/打包优化。

## 部署选项与快速开始

FreeRelay的安装极为简便，一条命令即可完成：`pip install -e .; freerelay`。系统默认在自动模式下运行于localhost:8000。交互式设置向导帮助用户配置API密钥，支持所有主要提供商的详细注册指引。

Docker Compose部署选项提供了完整的技术栈：FreeRelay + Redis + Jaeger + Prometheus + Grafana，一键启动即可拥有生产级的可观测性基础设施。CLI工具还提供了状态检查、基准测试等实用命令，方便运维管理。