正文

PixDLM：面向无人机场景的双路径多模态推理分割模型

厦门大学团队提出的CVPR 2026 Highlight工作，通过解耦语义推理与像素感知双路径，解决无人机视角下的小目标、大视场角、高场景复杂度等挑战，在DRSeg基准上实现领先性能。

PixDLMUAV推理分割多模态大模型无人机视觉CVPR2026双路径架构SAM 2.1LLaVADRSeg数据集指代分割

发布时间 2026/04/20 12:04最近活动 2026/04/20 12:20预计阅读 3 分钟

章节 01

【导读】PixDLM：面向无人机场景的双路径多模态推理分割模型

厦门大学团队提出的CVPR 2026 Highlight工作PixDLM，通过解耦语义推理与像素感知双路径，解决无人机视角下小目标、大视场角、高场景复杂度等挑战，在DRSeg基准上实现领先性能。该工作还发布了首个UAV推理分割数据集DRSeg，并已开源模型权重、代码及数据集，为无人机视觉理解提供新方案。

章节 02

研究背景与UAV推理分割任务定义

研究背景

无人机航拍图像分析面临三大挑战：1. 58.08%实例占比小于1%的小目标主导；2. 飞行高度30-100米导致目标尺度剧烈波动；3. 密集地理元素需理解空间关系与上下文。传统指代分割模型难处理复杂推理指令，而MLLM缺乏像素级定位能力，催生"推理分割"方向。

任务定义

UAV推理分割是指令驱动的像素级预测任务，要求模型理解含逻辑推理的复杂指令，执行空间/属性推理，输出精确分割掩码。现有模型局限：推理与感知耦合、训练数据匮乏、长链推理一致性差。

章节 03

PixDLM架构：双路径解耦的核心创新

PixDLM核心为显式解耦的双路径设计：

语义推理路径：基于LLaVA-v1.6-Vicuna-7B，负责理解指令、链式推理，生成结构化查询。
像素级视觉路径：整合SAM 2.1与CLIP视觉编码器，提供高质量像素特征。
双路径协同：轻量级跨路径注意力模块实现"推理引导感知"，动态调节视觉关注区域。

技术创新点：显式解耦、分层融合、推理一致性约束。

章节 04

DRSeg数据集：UAV推理分割的首个基准

团队发布DRSeg数据集，填补UAV推理分割数据空白：

统计信息

属性	数值
图像数量	10,000张高分辨率UAV图像
实例掩码	10,000个精确标注
推理问答对	10,000条链式推理标注
飞行高度	30m/60m/100m三档
小目标占比	58.08%实例小于图像1%

推理类型分布

空间推理（33.33%）、属性推理（33.34%）、场景级推理（33.33%）均衡分布，提升泛化性。

章节 05

实验结果：PixDLM在DRSeg及通用基准上的领先表现

DRSeg基准优势

小目标分割：IoU提升超15%（针对<1%面积实例）；
多高度泛化：跨30/60/100m高度性能波动<5%；
复杂指令：3步以上推理成功率显著提升。

消融实验

移除双路径解耦：小目标性能下降约20%；
SAM2.1替代SAM1.0：边界精度提升8%；
引入CoT监督：复杂指令成功率提升12%。

跨基准泛化

在RefCOCO、RefCOCO+、RefCOCOg等通用指代分割基准上达专用模型水平。

章节 06

开源与应用：PixDLM的落地潜力及未来方向

开源生态

已开源预训练权重（HuggingFace）、推理/训练代码、DRSeg数据集。

应用场景

应急救援（定位受灾目标）、农业监测（作物健康评估）、基础设施巡检（异常检测）、城市规划（空间指标分析）。

未来方向

数据集扩展至100K+；
增强长链推理（5步以上）；
边缘设备轻量化；
多无人机协同。

章节 07

学术贡献与总结：PixDLM的价值与意义

学术贡献

任务创新：首次拓展推理分割到UAV场景；
架构创新：双路径解耦为MLLM像素级任务提供新思路；
数据贡献：DRSeg填补UAV推理分割数据空白。

总结

PixDLM通过双路径解耦解决无人机推理分割核心挑战，其架构范式可借鉴于其他需精确定位的多模态应用。开源与数据集开放将推动无人机智能分析实用化进程。