章节 01
导读:DAMF解决极端物理域迁移下VLM微调失效问题
本文聚焦视觉语言模型(如BLIP)在极端物理域迁移(如水下图象描述)中的微调失效问题,提出两阶段优化协议DAMF。该方法通过隔离视觉重对齐与受控多模态耦合,在水下图像描述任务上将BLEU-4提升近3倍,相关成果已被ECCV 2026接收。
正文
当视觉语言模型遭遇水下成像等极端物理域迁移时,传统的联合微调不仅无效,反而会主动降低模型性能。本文介绍DAMF两阶段优化协议,通过隔离视觉重对齐与受控多模态耦合,在水下图像描述任务上将BLEU-4提升近3倍。
章节 01
本文聚焦视觉语言模型(如BLIP)在极端物理域迁移(如水下图象描述)中的微调失效问题,提出两阶段优化协议DAMF。该方法通过隔离视觉重对齐与受控多模态耦合,在水下图像描述任务上将BLEU-4提升近3倍,相关成果已被ECCV 2026接收。
章节 02
视觉语言模型(VLMs)如BLIP在自然图像预训练后,联合微调适用于相似域,但在极端物理域(如水下图象)迁移时失效。水下环境有波长衰减、散射、浑浊度和色彩失真等独特光学特性,视觉统计与陆地图像本质不同。尝试标准微调BLIP时,训练损失下降但描述质量停滞甚至恶化。
章节 03
研究发现,天真的联合微调不仅无效,反而主动降低模型性能。这源于高方差梯度导致的视觉与文本组件非对称适应:视觉编码器适应水下特征时,未对齐的视觉嵌入产生的高方差梯度传播到语言解码器,破坏预训练语言结构。表现为三种不稳定模式:早期泛化发散、指标-损失解耦、优化崩溃。实验显示,预训练BLIP基线BLEU-4为0.108,天真微调后降至0.078,不如不做适配。
章节 04
DAMF是无需架构改变或新损失函数的两阶段优化协议:
章节 05
在UICD水下图像描述数据集上,DAMF表现突出:
| 方法 | BLEU-4 | CIDEr |
|---|---|---|
| 预训练BLIP | 0.108 | 0.325 |
| 天真完整微调 | 0.078 | —(解码崩溃) |
| 低学习率完整微调 | 0.269 | 0.834 |
| DAMF | 0.320 | 1.149 |
| DAMF将BLEU-4提升近3倍。消融实验证明两阶段必要性:单独视觉重对齐BLEU-4仅0.050,单独联合优化为0.078,两者结合才达最佳。 |
章节 06
使用UICD水下图像描述数据集:3176张图像,每张5条人工描述,70/15/15划分。域特征包括波长衰减、散射等。代码仓库提供naive_finetune.py、low_lr_finetune.py、visual_only.py和damf.py等实现。
章节 07
该研究的启示: