Zing 论坛

正文

多模态大语言模型在图像与视频分割领域的全面综述

深入解析Awesome-MLLM-Segmentation资源库,涵盖从指代表达分割到开放词汇语义分割的30余项前沿研究,揭示MLLM如何重塑计算机视觉的像素级理解能力。

多模态大语言模型图像分割视频分割指代表达分割开放词汇语义分割推理分割计算机视觉MLLMSAMLLaVA
发布时间 2026/04/12 16:05最近活动 2026/04/12 16:18预计阅读 3 分钟
多模态大语言模型在图像与视频分割领域的全面综述
1

章节 01

【导读】多模态大语言模型重塑图像与视频分割技术范式

基于Awesome-MLLM-Segmentation资源库,本文梳理2023-2025年30+顶会/期刊前沿研究,涵盖指代表达分割、开放词汇语义分割、视频分割、推理分割等核心方向,揭示多模态大语言模型(MLLMs)如何重塑图像与视频的像素级理解能力,还包括遥感等垂直领域应用及技术趋势展望。

2

章节 02

背景:传统分割的局限与MLLM的变革

传统图像分割(语义、实例、全景分割)需针对特定任务设计架构和训练流程。GPT-4V、LLaVA等MLLMs的崛起,将强大推理能力延伸至像素级别。Awesome-MLLM-Segmentation系统性收录该领域关键进展,重新定义分割技术范式。

3

章节 03

指代表达分割:文本到精确掩码的突破

指代表达分割(RES)要求模型按文本描述分割特定对象:

  • LISA(CVPR2024):首次引入推理能力,用链式思维解释决策,将分割掩码作为视觉token嵌入语言模型输出空间;
  • GLaMM(CVPR2024):支持多对象引用与复杂交互,细粒度像素级grounding;
  • PixelLM(CVPR2024):像素注意力机制提升边界模糊、遮挡场景的分割精度。
4

章节 04

开放词汇语义分割:突破预定义类别限制

开放词汇语义分割突破预定义类别限制:

  • GSVA(CVPR2024):广义分割概念,分层对齐视觉特征与概念描述,实现新类别零样本泛化;
  • GROUNDHOG(CVPR2024):整体分割,理解图像所有区域(含背景);
  • OMG-LLaVA(NeurIPS2024):统一架构处理图像分类、检测、分割多任务。
5

章节 05

视频分割:从静态到动态的跨越

视频分割需处理时空动态:

  • VISA(ECCV2024):首个视频MLLM分割框架,多轮对话细化结果,时间一致性机制保证帧间连贯;
  • VITRON(NeurIPS2024):统一像素级模型,支持理解、分割、生成、编辑全栈操作;
  • Sa2VA(ArXiv2025):SAM2与LLaVA结合,密集视频理解取得突破。
6

章节 06

推理分割:让模型学会'思考'的分割

推理分割要求模型先理解指令再分割:

  • CoReS(ECCV2024):推理与分割协同,双向反馈机制动态调整策略;
  • SegLLM(ICLR2025):多轮对话交互,引导模型逼近目标结果;
  • Seg-Zero(ArXiv2025):认知推理链指导分割,擅长常识推理任务。
7

章节 07

垂直应用:MLLM在遥感领域的探索

MLLM在遥感领域的应用:

  • GeoGround(ArXiv2024):首个遥感视觉定位大VLM,引入地理空间先验提升精度;
  • RSUniVLM(ArXiv2024):统一遥感VLM,粒度导向混合专家架构适应不同分辨率;
  • GeoPix(ArXiv2025):遥感像素级理解,多个基准领先。
8

章节 08

技术趋势与未来展望

技术趋势:

  1. 统一架构:如OMG-LLaVA、VITRON等,单模型处理多任务;
  2. 推理能力:可解释性重要性凸显(LISA、CoReS);
  3. 深度多模态融合:精细融合策略替代简单拼接。 未来展望:期待复杂场景处理、自然交互、可解释系统;需探索降低计算成本、提升实时性、确保结果可靠性等课题。