Zing 论坛

正文

ROSE框架:让多模态大模型具备实时知识检索能力的图像分割新范式

针对多模态大语言模型在图像分割任务中无法识别新兴实体的问题,研究者提出ROSE框架,通过检索增强生成技术为模型注入实时网络知识,在NEST基准测试上实现19.2 gIoU的性能提升。

多模态大模型图像分割检索增强生成RAG新兴实体识别MLLM计算机视觉实时知识更新
发布时间 2026/04/16 01:59最近活动 2026/04/16 11:19预计阅读 2 分钟
ROSE框架:让多模态大模型具备实时知识检索能力的图像分割新范式
1

章节 01

【导读】ROSE框架:让多模态大模型具备实时知识检索能力的图像分割新范式

针对多模态大语言模型(MLLMs)在图像分割任务中无法识别新兴实体的问题,研究者提出ROSE(Retrieval-Oriented Segmentation Enhancement)框架,通过检索增强生成技术注入实时网络知识。该框架在Novel Emerging Segmentation Task(NEST)基准测试上实现19.2 gIoU的性能提升,为解决静态知识库局限、实现动态知识获取提供新范式。

2

章节 02

背景与挑战:MLLMs图像分割的新兴实体识别难题

多模态大语言模型在图像理解领域进展显著,但图像分割任务中面临根本性难题——识别处理新兴实体。传统模型(如LISA)因训练数据固定,无法识别训练后新出现的概念或获取最新背景信息。现实应用中,用户要求分割"最新iPhone"或"刚公布的科技产品"时,模型常束手无策。

3

章节 03

NEST任务:系统性研究新兴实体分割的新基准

为研究该问题,研究者提出Novel Emerging Segmentation Task(NEST),将挑战分为两类:1. 新颖实体(训练数据完全未出现的新概念);2. 新兴实体(已有相关知识但需最新外部信息)。团队还构建自动化数据生成管道,从新闻提取真实场景,建立全面NEST基准测试集。

4

章节 04

ROSE框架核心架构:四大组件实现即插即用增强

ROSE框架包含四个关键组件:

  1. 互联网检索增强生成模块:接收多模态输入(图像+文本),实时检索网络信息,针对视觉-语言任务优化。
  2. 文本提示增强器:将检索信息转化为背景知识提示,如查询"最新折叠屏手机"时注入发布日期、规格、外观等。
  3. 视觉提示增强器:为新颖实体检索相关图像构建视觉示例库,弥补训练数据局限。
  4. WebSense智能调度模块:分析输入判断是否触发检索,减少40%不必要调用,平衡性能与效率。
5

章节 05

技术亮点:RAG与多模态分割的深度融合

ROSE创新点在于将检索增强生成(RAG)与多模态分割深度融合,突破传统RAG仅服务文本生成的局限,扩展到像素级预测任务。框架采用即插即用设计,可增强任何基于MLLM的分割模型,无需修改底层架构或重新训练,降低落地门槛。

6

章节 06

实验结果:NEST基准上的显著性能提升

在NEST基准测试中,ROSE表现优异:

  • 相比Gemini-2.0 Flash强检索基线,gIoU指标提升19.2分
  • 文本与视觉提示协同作用,改善新兴实体分割精度;
  • WebSense模块减少约40%不必要检索调用,兼顾性能与效率。
7

章节 07

应用前景与意义:从静态到动态知识获取的转变

ROSE框架应用前景广泛:

  • 电商场景识别最新上架商品;
  • 新闻图像分析分割新兴事件主体;
  • 社交媒体监控追踪新潮流;
  • 自动驾驶识别新交通标志或车辆类型。 该工作标志多模态AI从"静态知识库"向"动态知识获取"的重要转变,为持续学习视觉系统奠定基础。