章节 01
【主楼/导读】RemoteShield:为地球观测构建鲁棒多模态大模型
针对现有遥感多模态大语言模型(MLLM)在真实环境噪声(如视觉的云层遮挡、雾霾覆盖,文本的口语化表达、模糊指令等)下性能退化的问题,提出RemoteShield框架。该框架通过语义等价簇构建与跨条件偏好学习,对齐干净输入与扰动输入的语义,在场景分类、目标检测、视觉问答三种地球观测任务上实现更强的鲁棒性、跨条件一致性,且保持干净数据下的竞争力。
正文
针对遥感多模态大模型在真实环境噪声下性能退化的问题,提出RemoteShield框架,通过偏好学习在语义等价簇上对齐干净与扰动输入,在三种地球观测任务上实现更强的鲁棒性和跨条件一致性。
章节 01
针对现有遥感多模态大语言模型(MLLM)在真实环境噪声(如视觉的云层遮挡、雾霾覆盖,文本的口语化表达、模糊指令等)下性能退化的问题,提出RemoteShield框架。该框架通过语义等价簇构建与跨条件偏好学习,对齐干净输入与扰动输入的语义,在场景分类、目标检测、视觉问答三种地球观测任务上实现更强的鲁棒性、跨条件一致性,且保持干净数据下的竞争力。
章节 02
地球观测MLLM需在真实输入变化下保持一致推理能力,但当前模型因训练于干净数据集,学习到脆弱映射,无法泛化到噪声条件。真实输入变化包括:
研究团队构建现实多模态扰动集合(视觉模拟自然条件、文本涵盖人类表达变化),实证显示扰动显著损害基线模型的视觉-语义推理能力,表现为云层下错误识别地物、模糊查询回答不一致、相似条件下解释矛盾。
章节 03
RemoteShield通过语义等价簇与偏好学习实现鲁棒性:
章节 04
评估RemoteShield在三个任务上的表现:
RemoteShield显著优于基线:
章节 05
传统方法直接拟合噪声样本易导致记忆噪声、过拟合、牺牲干净性能;RemoteShield的偏好学习:
章节 06
章节 07