Zing 论坛

正文

Brick-SR1:多模态语义路由网关,统一处理文本、图像和音频输入

Brick是一个多模态路由网关,通过单一虚拟模型接口统一处理文本、图像和音频输入,自动检测模态类型并路由到合适的后端模型,无需客户端做任何改动。

多模态语义路由网关OCR语音转文本OpenAI APIGoLLM部署
发布时间 2026/04/09 18:55最近活动 2026/04/09 19:18预计阅读 3 分钟
Brick-SR1:多模态语义路由网关,统一处理文本、图像和音频输入
1

章节 01

【导读】Brick-SR1:统一多模态输入的语义路由网关核心介绍

本文介绍Brick-SR1多模态语义路由网关,它通过单一OpenAI兼容接口统一处理文本、图像、音频输入,自动检测模态类型并路由到合适后端模型,无需客户端做任何改动。核心解决多模态AI部署的碎片化问题,将模态处理逻辑迁移到网关层,为应用开发者提供透明、统一的对话接口。

2

章节 02

背景:多模态AI部署的碎片化痛点

现代大语言模型部署面临碎片化问题:不同输入模态(文本、图像、音频)需要不同的后端模型和API端点,迫使客户端自行实现模态检测和模型选择逻辑。这种耦合导致系统脆弱,后端API变更时客户端需修改代码,运维开销持续增加。Brick的出现正是为迁移模态处理逻辑到网关层,提供真正统一的接口。

3

章节 03

核心架构与路由策略

Brick架构围绕透明代理理念,包含以下组件:

  1. 模态检测分类:将请求分为图像+文本、仅图像、仅音频、音频+图像、仅文本五种组合;
  2. 并发预处理:Go协程并行执行OCR和语音转文本;
  3. 智能路由决策:图像输入优先尝试OCR,短结果则回退到视觉模型;
  4. 语义路由集成:预处理后文本传递给语义管道评估11种信号选择后端。

路由策略表:

输入模态 处理方式 目的地
图像+文本 保留原始多模态请求 视觉模型
仅图像 OCR处理→文本≥阈值则语义管道,否则视觉模型 语义管道/视觉模型
仅音频 Whisper兼容STT转录 语义管道
音频+图像 并行OCR+STT 语义管道
仅文本 无预处理 语义管道
4

章节 04

技术实现细节

Brick使用Go 1.24实现,作为HTTP代理服务器的一部分:

  • 并发处理:音频+图像输入时,用sync.WaitGroup协调goroutine并行执行转录和OCR;
  • 请求体重写:预处理后文本内容重写为OpenAI对话格式,下游组件透明;
  • 透传模式:客户端可通过x-selected-model头指定后端,跳过预处理。
6

章节 06

应用场景与价值

Brick适用于以下场景:

  • 简化客户端开发:统一OpenAI格式交互,无需关心后端差异;
  • 成本优化:智能路由到合适模型(简单文本→低成本,复杂多模态→高能力);
  • 灵活后端切换:修改网关配置即可,无需客户端代码变更;
  • 统一监控:通过x-selected-model头追踪模型使用与成本归因。
7

章节 07

开源许可与项目演进

Brick基于vLLM语义路由器(Apache 2.0许可),代码托管于GitHub。当前特性包括独立HTTP代理(无Envoy依赖)、Brick虚拟模型、Regolo API集成、OpenAI Responses格式转换。作为MyModel LLM网关一部分,支持完整语义路由管道与插件链,持续演进中。