正文

MuCo：NAVER AI Lab的多轮对比学习多模态嵌入模型

CVPR 2026入选工作，通过多轮对话式对比学习训练多模态嵌入模型，在MMEB基准上取得SOTA性能，2B模型达70.1分，7B模型达74.2分。

多模态对比学习嵌入模型NAVERCVPRCLIP跨模态检索PyTorch

发布时间 2026/04/09 16:34最近活动 2026/04/09 16:47预计阅读 2 分钟

章节 01

MuCo：NAVER AI Lab多轮对比学习多模态嵌入模型导读

NAVER AI Lab提出的MuCo（Multi-turn Contrastive Learning）多模态嵌入模型已被CVPR 2026接收，通过多轮对话式对比学习训练，在MMEB基准上取得SOTA性能（2B模型70.1分，7B模型74.2分）。相关预训练模型、M3T数据集及论文已开源，完整训练代码将于近期发布。该模型为多模态嵌入训练提供了新范式。

章节 02

多模态嵌入模型的演进与传统对比学习局限

多模态嵌入模型是连接文本、图像等模态的桥梁，在跨模态检索等场景关键。传统对比学习通过拉近匹配对、推开不匹配对训练，但存在负样本质量参差、缺乏渐进学习、忽略细粒度关系等局限，难以捕捉复杂语义差异。

章节 03

MuCo的核心：多轮对话式对比学习设计

MuCo将对比学习转化为多轮对话过程：第一轮区分明显不匹配样本；后续轮次基于前一轮输出构造困难负样本；动态调整对比难度，模拟人类从易到难的学习过程，解决传统方法的局限。

章节 04

MuCo技术架构与训练支撑

模型架构：基于视觉-语言预训练架构，提供2B（70.1分）和7B（74.2分）版本，HuggingFace链接分别为naver-ai/MuCo-2B、naver-ai/MuCo-7B。数据集：依赖NAVER构建的M3T多轮标注数据集（naver-ai/M3T），具有渐进难度和大规模特点。训练策略：包含多轮采样器、难度调度器、温度系数退火等组件。

章节 05

MuCo实验结果与消融分析

MMEB基准表现：MuCo-2B（70.1分）较同等规模CLIP提升显著；MuCo-7B（74.2分）接近更大模型性能，扩展性良好。消融实验：轮次增加提升细粒度语义捕捉能力；动态负采样优于随机采样；多轮学习虽单轮计算量增加，但总训练步数减少，效率更高。

章节 06

MuCo与相关工作对比及应用场景

相关工作对比：与SimCLR（单模态）、CLIP（简单负采样）、ALIGN（依赖数据量）相比，MuCo以多轮渐进对比为核心，需多轮标注数据。应用场景：适用于跨模态检索（以文搜图/以图搜文）、细粒度语义理解（视觉问答、图像描述生成、多模态推理）等场景。

章节 07

MuCo开源生态与未来方向

开源资源：已发布预训练模型、M3T数据集、论文（arXiv:2602.06393）；完整训练代码计划4月13-17日发布。未来方向：推广多轮学习到其他表示学习任务；探索自适应轮次、多智能体对比、跨任务迁移等方向。

章节 08

MuCo团队背景与研究总结

团队：由NAVER AI Lab与韩国大学研究者共同完成，第一作者Geonmo Gu，核心贡献者包括Byeongho Heo等。总结：MuCo通过多轮对比学习范式为多模态嵌入训练提供新思路，SOTA性能证明有效性，开源资源将推动社区创新，值得多模态学习领域关注。

MuCo：NAVER AI Lab的多轮对比学习多模态嵌入模型

MuCo：NAVER AI Lab多轮对比学习多模态嵌入模型导读

多模态嵌入模型的演进与传统对比学习局限

MuCo的核心：多轮对话式对比学习设计

MuCo技术架构与训练支撑

MuCo实验结果与消融分析

MuCo与相关工作对比及应用场景

MuCo开源生态与未来方向

MuCo团队背景与研究总结

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案