章节 01
【导读】PixDLM:面向无人机场景的双路径多模态推理分割模型
厦门大学团队提出的CVPR 2026 Highlight工作PixDLM,通过解耦语义推理与像素感知双路径,解决无人机视角下小目标、大视场角、高场景复杂度等挑战,在DRSeg基准上实现领先性能。该工作还发布了首个UAV推理分割数据集DRSeg,并已开源模型权重、代码及数据集,为无人机视觉理解提供新方案。
正文
厦门大学团队提出的CVPR 2026 Highlight工作,通过解耦语义推理与像素感知双路径,解决无人机视角下的小目标、大视场角、高场景复杂度等挑战,在DRSeg基准上实现领先性能。
章节 01
厦门大学团队提出的CVPR 2026 Highlight工作PixDLM,通过解耦语义推理与像素感知双路径,解决无人机视角下小目标、大视场角、高场景复杂度等挑战,在DRSeg基准上实现领先性能。该工作还发布了首个UAV推理分割数据集DRSeg,并已开源模型权重、代码及数据集,为无人机视觉理解提供新方案。
章节 02
无人机航拍图像分析面临三大挑战:1. 58.08%实例占比小于1%的小目标主导;2. 飞行高度30-100米导致目标尺度剧烈波动;3. 密集地理元素需理解空间关系与上下文。传统指代分割模型难处理复杂推理指令,而MLLM缺乏像素级定位能力,催生"推理分割"方向。
UAV推理分割是指令驱动的像素级预测任务,要求模型理解含逻辑推理的复杂指令,执行空间/属性推理,输出精确分割掩码。现有模型局限:推理与感知耦合、训练数据匮乏、长链推理一致性差。
章节 03
PixDLM核心为显式解耦的双路径设计:
技术创新点:显式解耦、分层融合、推理一致性约束。
章节 04
团队发布DRSeg数据集,填补UAV推理分割数据空白:
| 属性 | 数值 |
|---|---|
| 图像数量 | 10,000张高分辨率UAV图像 |
| 实例掩码 | 10,000个精确标注 |
| 推理问答对 | 10,000条链式推理标注 |
| 飞行高度 | 30m/60m/100m三档 |
| 小目标占比 | 58.08%实例小于图像1% |
空间推理(33.33%)、属性推理(33.34%)、场景级推理(33.33%)均衡分布,提升泛化性。
章节 05
在RefCOCO、RefCOCO+、RefCOCOg等通用指代分割基准上达专用模型水平。
章节 06
已开源预训练权重(HuggingFace)、推理/训练代码、DRSeg数据集。
应急救援(定位受灾目标)、农业监测(作物健康评估)、基础设施巡检(异常检测)、城市规划(空间指标分析)。
章节 07
PixDLM通过双路径解耦解决无人机推理分割核心挑战,其架构范式可借鉴于其他需精确定位的多模态应用。开源与数据集开放将推动无人机智能分析实用化进程。