正文

MER-DG：解决多模态模型"融合过拟合"问题的熵正则化方法

MER-DG通过最大化各模态编码器特征分布的熵，解决了多模态域泛化中的"融合过拟合"问题，在EPIC-Kitchens和HAC基准上比标准融合方法提升约5%。

多模态学习域泛化融合过拟合熵正则化跨模态共现EPIC-Kitchens

发布时间 2026/05/04 00:53最近活动 2026/05/05 12:49预计阅读 2 分钟

章节 01

MER-DG：熵正则化解决多模态融合过拟合问题导读

MER-DG通过最大化各模态编码器特征分布的熵，解决多模态域泛化中的"融合过拟合"问题，在EPIC-Kitchens和HAC基准上比标准融合方法提升约5%。该方法揭示了融合过拟合这一关键失效模式，并提供了简洁有效的解决方案。

章节 02

多模态学习已成为自动驾驶、智能家居等应用的核心，但模型从实验室部署到真实世界时面临域迁移问题。不同模态受环境因素（如光照、噪声）影响，导致训练环境（源域）与部署环境（目标域）性能差异，构成多模态域泛化（MMDG）的核心挑战。

章节 03

标准多模态架构通过独立编码器+融合模块联合优化，但存在隐蔽缺陷：编码器倾向利用训练数据中偶然的跨模态共现关系（如厨房视频与特定背景噪音绑定），而非学习领域不变特征，导致模型依赖"捷径"，部署时关联失效，即"融合过拟合"。

章节 04

MER-DG（模态熵正则化域泛化方法）核心是最大化每个编码器特征分布的熵，强制保持特征多样性，防止过度依赖跨模态共现。熵衡量分布多样性，高熵特征更丰富；通过添加负熵项到损失函数实现。该方法架构无关，可作为附加损失集成到现有框架，即插即用。

章节 05

在EPIC-Kitchens（第一人称厨房活动识别，视频+音频）和HAC（人类活动识别）基准上实验：MER-DG比标准融合方法提升约5%，比最先进方法提升约2%。消融实验验证熵正则化有效增加特征多样性，减少对跨模态共现的依赖，支持融合过拟合理论。

章节 06

MER-DG揭示了融合过拟合这一失效模式，提醒关注模态交互方式；熵正则化可应用于防止特征坍塌、自监督学习模态对齐过度等场景；引发思考：多模态学习应追求对各模态的深度理解，而非仅任务性能，强制模态保持独立表达能力是构建鲁棒系统的关键。

章节 07

当前实验集中于双模态（视频+音频），多模态场景效果需验证；熵计算有开销，需平衡效果与效率。未来可探索更精细熵估计、不同模态最优正则化强度、扩展到对比学习/掩码预训练等范式。