正文

LatentRouter：多模态大模型的智能路由选择系统

LatentRouter提出了一种基于反事实多模态效用预测的路由方法，通过在潜在空间中进行模型能力表征和查询需求匹配，实现多模态大模型的智能路由，在性能和成本之间取得更好平衡。

多模态大模型模型路由反事实预测潜在空间智能体模型选择效用优化MLLM

发布时间 2026/05/12 14:45最近活动 2026/05/13 09:49预计阅读 2 分钟

章节 01

LatentRouter：多模态大模型智能路由系统核心导读

本文介绍了LatentRouter——一种基于反事实多模态效用预测的智能路由系统，旨在解决多模态大模型异构性带来的选择难题。其核心思路是通过潜在空间中的模型能力表征与查询需求匹配，动态选择最优模型，在性能与成本间取得平衡。本文将从背景、方法、实验、应用等方面展开详细说明。

章节 02

随着多模态大语言模型（MLLMs）快速发展，不同模型在任务表现（如OCR、图表理解、空间推理等）、推理延迟及API成本上存在显著异构性。传统固定使用单一模型的方式存在弊端：简单查询用昂贵大模型浪费资源，复杂查询用轻量模型性能不足。因此，需动态选择最适合的模型应对具体图像-文本查询。

章节 03

LatentRouter的核心创新是将路由问题转化为反事实多模态效用预测。给定图像-查询输入，系统需预测各候选模型的输出质量，而非仅估计查询难度。这要求同时理解查询的多模态需求与模型的能力特征，以做出明智决策。

章节 04

LatentRouter包含三大关键组件：1.多模态路由胶囊：提取图像-查询的视觉特征、文本语义及交互模式，形成紧凑表征；2.模型能力令牌：每个候选模型被表示为潜在空间向量，捕捉其能力维度分布；3.潜在通信机制：通过注意力等交互方式，计算查询需求与模型能力的匹配程度，实现细粒度语义匹配。

章节 05

LatentRouter采用分布式输出预测各模型的反事实质量分布，以捕捉不确定性并提供丰富决策信息。针对难分情况，引入有界胶囊修正机制避免过度自信。系统支持灵活的效用策略：性能优先（选质量最高模型）或性能-成本平衡（满足质量阈值下选成本最低模型）。

章节 06

实际部署中模型池可能动态变化（新模型加入、旧模型不可用）。LatentRouter通过共享的每模型评分结合可用性掩码处理此情况：模型能力表征固定，不可用时其评分被屏蔽，无需重新训练即可适应新模型组合。

章节 07

在MMR-Bench和VL-RouterBench基准上，LatentRouter持续优于固定模型基线、特征级路由及学习路由基线。增益在视觉依赖、布局敏感或推理导向任务组最显著。消融实验验证潜在通信机制是性能提升的主要贡献者。

章节 08

应用价值：预测阶段轻量无额外延迟；支持灵活策略调整（高峰期成本优先、质量严格场景性能优先）；模块化设计便于新模型接入（仅需生成能力令牌）。未来方向：扩展到更多模态（音频、视频）；探索在线学习适应模型性能变化；研究路由决策可解释性。