章节 01
【导读】ROSE框架:让多模态大模型具备实时知识检索能力的图像分割新范式
针对多模态大语言模型(MLLMs)在图像分割任务中无法识别新兴实体的问题,研究者提出ROSE(Retrieval-Oriented Segmentation Enhancement)框架,通过检索增强生成技术注入实时网络知识。该框架在Novel Emerging Segmentation Task(NEST)基准测试上实现19.2 gIoU的性能提升,为解决静态知识库局限、实现动态知识获取提供新范式。
正文
针对多模态大语言模型在图像分割任务中无法识别新兴实体的问题,研究者提出ROSE框架,通过检索增强生成技术为模型注入实时网络知识,在NEST基准测试上实现19.2 gIoU的性能提升。
章节 01
针对多模态大语言模型(MLLMs)在图像分割任务中无法识别新兴实体的问题,研究者提出ROSE(Retrieval-Oriented Segmentation Enhancement)框架,通过检索增强生成技术注入实时网络知识。该框架在Novel Emerging Segmentation Task(NEST)基准测试上实现19.2 gIoU的性能提升,为解决静态知识库局限、实现动态知识获取提供新范式。
章节 02
多模态大语言模型在图像理解领域进展显著,但图像分割任务中面临根本性难题——识别处理新兴实体。传统模型(如LISA)因训练数据固定,无法识别训练后新出现的概念或获取最新背景信息。现实应用中,用户要求分割"最新iPhone"或"刚公布的科技产品"时,模型常束手无策。
章节 03
为研究该问题,研究者提出Novel Emerging Segmentation Task(NEST),将挑战分为两类:1. 新颖实体(训练数据完全未出现的新概念);2. 新兴实体(已有相关知识但需最新外部信息)。团队还构建自动化数据生成管道,从新闻提取真实场景,建立全面NEST基准测试集。
章节 04
ROSE框架包含四个关键组件:
章节 05
ROSE创新点在于将检索增强生成(RAG)与多模态分割深度融合,突破传统RAG仅服务文本生成的局限,扩展到像素级预测任务。框架采用即插即用设计,可增强任何基于MLLM的分割模型,无需修改底层架构或重新训练,降低落地门槛。
章节 06
在NEST基准测试中,ROSE表现优异:
章节 07
ROSE框架应用前景广泛: