章节 01
【导读】Brick-SR1:统一多模态输入的语义路由网关核心介绍
本文介绍Brick-SR1多模态语义路由网关,它通过单一OpenAI兼容接口统一处理文本、图像、音频输入,自动检测模态类型并路由到合适后端模型,无需客户端做任何改动。核心解决多模态AI部署的碎片化问题,将模态处理逻辑迁移到网关层,为应用开发者提供透明、统一的对话接口。
正文
Brick是一个多模态路由网关,通过单一虚拟模型接口统一处理文本、图像和音频输入,自动检测模态类型并路由到合适的后端模型,无需客户端做任何改动。
章节 01
本文介绍Brick-SR1多模态语义路由网关,它通过单一OpenAI兼容接口统一处理文本、图像、音频输入,自动检测模态类型并路由到合适后端模型,无需客户端做任何改动。核心解决多模态AI部署的碎片化问题,将模态处理逻辑迁移到网关层,为应用开发者提供透明、统一的对话接口。
章节 02
现代大语言模型部署面临碎片化问题:不同输入模态(文本、图像、音频)需要不同的后端模型和API端点,迫使客户端自行实现模态检测和模型选择逻辑。这种耦合导致系统脆弱,后端API变更时客户端需修改代码,运维开销持续增加。Brick的出现正是为迁移模态处理逻辑到网关层,提供真正统一的接口。
章节 03
Brick架构围绕透明代理理念,包含以下组件:
路由策略表:
| 输入模态 | 处理方式 | 目的地 |
|---|---|---|
| 图像+文本 | 保留原始多模态请求 | 视觉模型 |
| 仅图像 | OCR处理→文本≥阈值则语义管道,否则视觉模型 | 语义管道/视觉模型 |
| 仅音频 | Whisper兼容STT转录 | 语义管道 |
| 音频+图像 | 并行OCR+STT | 语义管道 |
| 仅文本 | 无预处理 | 语义管道 |
章节 04
Brick使用Go 1.24实现,作为HTTP代理服务器的一部分:
章节 05
Brick通过config.yaml配置(需enabled:true),包含视觉/ OCR/ STT模型及端点、OCR最小文本长度阈值。部署步骤:
章节 06
Brick适用于以下场景:
章节 07
Brick基于vLLM语义路由器(Apache 2.0许可),代码托管于GitHub。当前特性包括独立HTTP代理(无Envoy依赖)、Brick虚拟模型、Regolo API集成、OpenAI Responses格式转换。作为MyModel LLM网关一部分,支持完整语义路由管道与插件链,持续演进中。