Zing 论坛

正文

MuCo:NAVER AI Lab的多轮对比学习多模态嵌入模型

CVPR 2026入选工作,通过多轮对话式对比学习训练多模态嵌入模型,在MMEB基准上取得SOTA性能,2B模型达70.1分,7B模型达74.2分。

多模态对比学习嵌入模型NAVERCVPRCLIP跨模态检索PyTorch
发布时间 2026/04/09 16:34最近活动 2026/04/09 16:47预计阅读 2 分钟
MuCo:NAVER AI Lab的多轮对比学习多模态嵌入模型
1

章节 01

MuCo:NAVER AI Lab多轮对比学习多模态嵌入模型导读

NAVER AI Lab提出的MuCo(Multi-turn Contrastive Learning)多模态嵌入模型已被CVPR 2026接收,通过多轮对话式对比学习训练,在MMEB基准上取得SOTA性能(2B模型70.1分,7B模型74.2分)。相关预训练模型、M3T数据集及论文已开源,完整训练代码将于近期发布。该模型为多模态嵌入训练提供了新范式。

2

章节 02

多模态嵌入模型的演进与传统对比学习局限

多模态嵌入模型是连接文本、图像等模态的桥梁,在跨模态检索等场景关键。传统对比学习通过拉近匹配对、推开不匹配对训练,但存在负样本质量参差、缺乏渐进学习、忽略细粒度关系等局限,难以捕捉复杂语义差异。

3

章节 03

MuCo的核心:多轮对话式对比学习设计

MuCo将对比学习转化为多轮对话过程:第一轮区分明显不匹配样本;后续轮次基于前一轮输出构造困难负样本;动态调整对比难度,模拟人类从易到难的学习过程,解决传统方法的局限。

4

章节 04

MuCo技术架构与训练支撑

模型架构:基于视觉-语言预训练架构,提供2B(70.1分)和7B(74.2分)版本,HuggingFace链接分别为naver-ai/MuCo-2B、naver-ai/MuCo-7B。数据集:依赖NAVER构建的M3T多轮标注数据集(naver-ai/M3T),具有渐进难度和大规模特点。训练策略:包含多轮采样器、难度调度器、温度系数退火等组件。

5

章节 05

MuCo实验结果与消融分析

MMEB基准表现:MuCo-2B(70.1分)较同等规模CLIP提升显著;MuCo-7B(74.2分)接近更大模型性能,扩展性良好。消融实验:轮次增加提升细粒度语义捕捉能力;动态负采样优于随机采样;多轮学习虽单轮计算量增加,但总训练步数减少,效率更高。

6

章节 06

MuCo与相关工作对比及应用场景

相关工作对比:与SimCLR(单模态)、CLIP(简单负采样)、ALIGN(依赖数据量)相比,MuCo以多轮渐进对比为核心,需多轮标注数据。应用场景:适用于跨模态检索(以文搜图/以图搜文)、细粒度语义理解(视觉问答、图像描述生成、多模态推理)等场景。

7

章节 07

MuCo开源生态与未来方向

开源资源:已发布预训练模型、M3T数据集、论文(arXiv:2602.06393);完整训练代码计划4月13-17日发布。未来方向:推广多轮学习到其他表示学习任务;探索自适应轮次、多智能体对比、跨任务迁移等方向。

8

章节 08

MuCo团队背景与研究总结

团队:由NAVER AI Lab与韩国大学研究者共同完成,第一作者Geonmo Gu,核心贡献者包括Byeongho Heo等。总结:MuCo通过多轮对比学习范式为多模态嵌入训练提供新思路,SOTA性能证明有效性,开源资源将推动社区创新,值得多模态学习领域关注。