正文

ROSE框架：让多模态大模型具备实时知识检索能力的图像分割新范式

针对多模态大语言模型在图像分割任务中无法识别新兴实体的问题，研究者提出ROSE框架，通过检索增强生成技术为模型注入实时网络知识，在NEST基准测试上实现19.2 gIoU的性能提升。

多模态大模型图像分割检索增强生成RAG新兴实体识别MLLM计算机视觉实时知识更新

发布时间 2026/04/16 01:59最近活动 2026/04/16 11:19预计阅读 2 分钟

章节 01

【导读】ROSE框架：让多模态大模型具备实时知识检索能力的图像分割新范式

针对多模态大语言模型（MLLMs）在图像分割任务中无法识别新兴实体的问题，研究者提出ROSE（Retrieval-Oriented Segmentation Enhancement）框架，通过检索增强生成技术注入实时网络知识。该框架在Novel Emerging Segmentation Task（NEST）基准测试上实现19.2 gIoU的性能提升，为解决静态知识库局限、实现动态知识获取提供新范式。

章节 02

背景与挑战：MLLMs图像分割的新兴实体识别难题

多模态大语言模型在图像理解领域进展显著，但图像分割任务中面临根本性难题——识别处理新兴实体。传统模型（如LISA）因训练数据固定，无法识别训练后新出现的概念或获取最新背景信息。现实应用中，用户要求分割"最新iPhone"或"刚公布的科技产品"时，模型常束手无策。

章节 03

NEST任务：系统性研究新兴实体分割的新基准

为研究该问题，研究者提出Novel Emerging Segmentation Task（NEST），将挑战分为两类：1. 新颖实体（训练数据完全未出现的新概念）；2. 新兴实体（已有相关知识但需最新外部信息）。团队还构建自动化数据生成管道，从新闻提取真实场景，建立全面NEST基准测试集。

章节 04

ROSE框架核心架构：四大组件实现即插即用增强

ROSE框架包含四个关键组件：

互联网检索增强生成模块：接收多模态输入（图像+文本），实时检索网络信息，针对视觉-语言任务优化。
文本提示增强器：将检索信息转化为背景知识提示，如查询"最新折叠屏手机"时注入发布日期、规格、外观等。
视觉提示增强器：为新颖实体检索相关图像构建视觉示例库，弥补训练数据局限。
WebSense智能调度模块：分析输入判断是否触发检索，减少40%不必要调用，平衡性能与效率。

章节 05

技术亮点：RAG与多模态分割的深度融合

ROSE创新点在于将检索增强生成（RAG）与多模态分割深度融合，突破传统RAG仅服务文本生成的局限，扩展到像素级预测任务。框架采用即插即用设计，可增强任何基于MLLM的分割模型，无需修改底层架构或重新训练，降低落地门槛。

章节 06

实验结果：NEST基准上的显著性能提升

在NEST基准测试中，ROSE表现优异：

相比Gemini-2.0 Flash强检索基线，gIoU指标提升19.2分；
文本与视觉提示协同作用，改善新兴实体分割精度；
WebSense模块减少约40%不必要检索调用，兼顾性能与效率。

章节 07

应用前景与意义：从静态到动态知识获取的转变

ROSE框架应用前景广泛：

电商场景识别最新上架商品；
新闻图像分析分割新兴事件主体；
社交媒体监控追踪新潮流；
自动驾驶识别新交通标志或车辆类型。该工作标志多模态AI从"静态知识库"向"动态知识获取"的重要转变，为持续学习视觉系统奠定基础。

ROSE框架：让多模态大模型具备实时知识检索能力的图像分割新范式

【导读】ROSE框架：让多模态大模型具备实时知识检索能力的图像分割新范式

背景与挑战：MLLMs图像分割的新兴实体识别难题

NEST任务：系统性研究新兴实体分割的新基准

ROSE框架核心架构：四大组件实现即插即用增强

技术亮点：RAG与多模态分割的深度融合

实验结果：NEST基准上的显著性能提升

应用前景与意义：从静态到动态知识获取的转变

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Lattice：AI代理工作流的运维平台，实现跨会话协调与自动化