正文

Brick-SR1：多模态语义路由网关，统一处理文本、图像和音频输入

Brick是一个多模态路由网关，通过单一虚拟模型接口统一处理文本、图像和音频输入，自动检测模态类型并路由到合适的后端模型，无需客户端做任何改动。

多模态语义路由网关OCR语音转文本OpenAI APIGoLLM部署

发布时间 2026/04/09 18:55最近活动 2026/04/09 19:18预计阅读 3 分钟

章节 01

【导读】Brick-SR1：统一多模态输入的语义路由网关核心介绍

本文介绍Brick-SR1多模态语义路由网关，它通过单一OpenAI兼容接口统一处理文本、图像、音频输入，自动检测模态类型并路由到合适后端模型，无需客户端做任何改动。核心解决多模态AI部署的碎片化问题，将模态处理逻辑迁移到网关层，为应用开发者提供透明、统一的对话接口。

章节 02

背景：多模态AI部署的碎片化痛点

现代大语言模型部署面临碎片化问题：不同输入模态（文本、图像、音频）需要不同的后端模型和API端点，迫使客户端自行实现模态检测和模型选择逻辑。这种耦合导致系统脆弱，后端API变更时客户端需修改代码，运维开销持续增加。Brick的出现正是为迁移模态处理逻辑到网关层，提供真正统一的接口。

章节 03

核心架构与路由策略

Brick架构围绕透明代理理念，包含以下组件：

模态检测分类：将请求分为图像+文本、仅图像、仅音频、音频+图像、仅文本五种组合；
并发预处理：Go协程并行执行OCR和语音转文本；
智能路由决策：图像输入优先尝试OCR，短结果则回退到视觉模型；
语义路由集成：预处理后文本传递给语义管道评估11种信号选择后端。

路由策略表：

输入模态	处理方式	目的地
图像+文本	保留原始多模态请求	视觉模型
仅图像	OCR处理→文本≥阈值则语义管道，否则视觉模型	语义管道/视觉模型
仅音频	Whisper兼容STT转录	语义管道
音频+图像	并行OCR+STT	语义管道
仅文本	无预处理	语义管道

章节 04

技术实现细节

Brick使用Go 1.24实现，作为HTTP代理服务器的一部分：

并发处理：音频+图像输入时，用sync.WaitGroup协调goroutine并行执行转录和OCR；
请求体重写：预处理后文本内容重写为OpenAI对话格式，下游组件透明；
透传模式：客户端可通过x-selected-model头指定后端，跳过预处理。

章节 05

配置与部署指南

Brick通过config.yaml配置（需enabled:true），包含视觉/ OCR/ STT模型及端点、OCR最小文本长度阈值。部署步骤：

克隆仓库：git clone https://github.com/massaindustries/semantic-routing.git
构建Docker镜像：docker build -t mymodel:latest .
启动：docker compose -f deploy/docker-compose/docker-compose.yml up -d
验证：curl http://localhost:8000/health & curl http://localhost:8000/v1/models

章节 06

应用场景与价值

Brick适用于以下场景：

简化客户端开发：统一OpenAI格式交互，无需关心后端差异；
成本优化：智能路由到合适模型（简单文本→低成本，复杂多模态→高能力）；
灵活后端切换：修改网关配置即可，无需客户端代码变更；
统一监控：通过x-selected-model头追踪模型使用与成本归因。

章节 07

开源许可与项目演进

Brick基于vLLM语义路由器（Apache 2.0许可），代码托管于GitHub。当前特性包括独立HTTP代理（无Envoy依赖）、Brick虚拟模型、Regolo API集成、OpenAI Responses格式转换。作为MyModel LLM网关一部分，支持完整语义路由管道与插件链，持续演进中。