Zing 论坛

正文

PixDLM:面向无人机场景的双路径多模态推理分割模型

厦门大学团队提出的CVPR 2026 Highlight工作,通过解耦语义推理与像素感知双路径,解决无人机视角下的小目标、大视场角、高场景复杂度等挑战,在DRSeg基准上实现领先性能。

PixDLMUAV推理分割多模态大模型无人机视觉CVPR2026双路径架构SAM 2.1LLaVADRSeg数据集指代分割
发布时间 2026/04/20 12:04最近活动 2026/04/20 12:20预计阅读 3 分钟
PixDLM:面向无人机场景的双路径多模态推理分割模型
1

章节 01

【导读】PixDLM:面向无人机场景的双路径多模态推理分割模型

厦门大学团队提出的CVPR 2026 Highlight工作PixDLM,通过解耦语义推理与像素感知双路径,解决无人机视角下小目标、大视场角、高场景复杂度等挑战,在DRSeg基准上实现领先性能。该工作还发布了首个UAV推理分割数据集DRSeg,并已开源模型权重、代码及数据集,为无人机视觉理解提供新方案。

2

章节 02

研究背景与UAV推理分割任务定义

研究背景

无人机航拍图像分析面临三大挑战:1. 58.08%实例占比小于1%的小目标主导;2. 飞行高度30-100米导致目标尺度剧烈波动;3. 密集地理元素需理解空间关系与上下文。传统指代分割模型难处理复杂推理指令,而MLLM缺乏像素级定位能力,催生"推理分割"方向。

任务定义

UAV推理分割是指令驱动的像素级预测任务,要求模型理解含逻辑推理的复杂指令,执行空间/属性推理,输出精确分割掩码。现有模型局限:推理与感知耦合、训练数据匮乏、长链推理一致性差。

3

章节 03

PixDLM架构:双路径解耦的核心创新

PixDLM核心为显式解耦的双路径设计:

  • 语义推理路径:基于LLaVA-v1.6-Vicuna-7B,负责理解指令、链式推理,生成结构化查询。
  • 像素级视觉路径:整合SAM 2.1与CLIP视觉编码器,提供高质量像素特征。
  • 双路径协同:轻量级跨路径注意力模块实现"推理引导感知",动态调节视觉关注区域。

技术创新点:显式解耦、分层融合、推理一致性约束。

4

章节 04

DRSeg数据集:UAV推理分割的首个基准

团队发布DRSeg数据集,填补UAV推理分割数据空白:

统计信息

属性 数值
图像数量 10,000张高分辨率UAV图像
实例掩码 10,000个精确标注
推理问答对 10,000条链式推理标注
飞行高度 30m/60m/100m三档
小目标占比 58.08%实例小于图像1%

推理类型分布

空间推理(33.33%)、属性推理(33.34%)、场景级推理(33.33%)均衡分布,提升泛化性。

5

章节 05

实验结果:PixDLM在DRSeg及通用基准上的领先表现

DRSeg基准优势

  • 小目标分割:IoU提升超15%(针对<1%面积实例);
  • 多高度泛化:跨30/60/100m高度性能波动<5%;
  • 复杂指令:3步以上推理成功率显著提升。

消融实验

  • 移除双路径解耦:小目标性能下降约20%;
  • SAM2.1替代SAM1.0:边界精度提升8%;
  • 引入CoT监督:复杂指令成功率提升12%。

跨基准泛化

在RefCOCO、RefCOCO+、RefCOCOg等通用指代分割基准上达专用模型水平。

6

章节 06

开源与应用:PixDLM的落地潜力及未来方向

开源生态

已开源预训练权重(HuggingFace)、推理/训练代码、DRSeg数据集。

应用场景

应急救援(定位受灾目标)、农业监测(作物健康评估)、基础设施巡检(异常检测)、城市规划(空间指标分析)。

未来方向

  • 数据集扩展至100K+;
  • 增强长链推理(5步以上);
  • 边缘设备轻量化;
  • 多无人机协同。
7

章节 07

学术贡献与总结:PixDLM的价值与意义

学术贡献

  1. 任务创新:首次拓展推理分割到UAV场景;
  2. 架构创新:双路径解耦为MLLM像素级任务提供新思路;
  3. 数据贡献:DRSeg填补UAV推理分割数据空白。

总结

PixDLM通过双路径解耦解决无人机推理分割核心挑战,其架构范式可借鉴于其他需精确定位的多模态应用。开源与数据集开放将推动无人机智能分析实用化进程。