章节 01
MER-DG:熵正则化解决多模态融合过拟合问题导读
MER-DG通过最大化各模态编码器特征分布的熵,解决多模态域泛化中的"融合过拟合"问题,在EPIC-Kitchens和HAC基准上比标准融合方法提升约5%。该方法揭示了融合过拟合这一关键失效模式,并提供了简洁有效的解决方案。
正文
MER-DG通过最大化各模态编码器特征分布的熵,解决了多模态域泛化中的"融合过拟合"问题,在EPIC-Kitchens和HAC基准上比标准融合方法提升约5%。
章节 01
MER-DG通过最大化各模态编码器特征分布的熵,解决多模态域泛化中的"融合过拟合"问题,在EPIC-Kitchens和HAC基准上比标准融合方法提升约5%。该方法揭示了融合过拟合这一关键失效模式,并提供了简洁有效的解决方案。
章节 02
多模态学习已成为自动驾驶、智能家居等应用的核心,但模型从实验室部署到真实世界时面临域迁移问题。不同模态受环境因素(如光照、噪声)影响,导致训练环境(源域)与部署环境(目标域)性能差异,构成多模态域泛化(MMDG)的核心挑战。
章节 03
标准多模态架构通过独立编码器+融合模块联合优化,但存在隐蔽缺陷:编码器倾向利用训练数据中偶然的跨模态共现关系(如厨房视频与特定背景噪音绑定),而非学习领域不变特征,导致模型依赖"捷径",部署时关联失效,即"融合过拟合"。
章节 04
MER-DG(模态熵正则化域泛化方法)核心是最大化每个编码器特征分布的熵,强制保持特征多样性,防止过度依赖跨模态共现。熵衡量分布多样性,高熵特征更丰富;通过添加负熵项到损失函数实现。该方法架构无关,可作为附加损失集成到现有框架,即插即用。
章节 05
在EPIC-Kitchens(第一人称厨房活动识别,视频+音频)和HAC(人类活动识别)基准上实验:MER-DG比标准融合方法提升约5%,比最先进方法提升约2%。消融实验验证熵正则化有效增加特征多样性,减少对跨模态共现的依赖,支持融合过拟合理论。
章节 06
MER-DG揭示了融合过拟合这一失效模式,提醒关注模态交互方式;熵正则化可应用于防止特征坍塌、自监督学习模态对齐过度等场景;引发思考:多模态学习应追求对各模态的深度理解,而非仅任务性能,强制模态保持独立表达能力是构建鲁棒系统的关键。
章节 07
当前实验集中于双模态(视频+音频),多模态场景效果需验证;熵计算有开销,需平衡效果与效率。未来可探索更精细熵估计、不同模态最优正则化强度、扩展到对比学习/掩码预训练等范式。