章节 01
多模态模型全景图谱:从MLLM到NMM的架构演进导读
本文基于OpenEnvision维护的Awesome Multimodal Modeling资源列表,系统梳理多模态AI的发展脉络,涵盖传统多模态模型、多模态大语言模型(MLLM)、统一多模态模型(UMM)、原生多模态模型(NMM)四大演进阶段,以及MLLM、UMM、NMM三大核心范式,为研究者提供清晰的分类体系与架构对比,助力理清领域技术演进路径。
正文
Awesome Multimodal Modeling资源列表系统梳理了多模态AI的发展脉络,涵盖多模态大语言模型、统一多模态模型和原生多模态模型三大范式,为研究者提供清晰的分类体系和架构对比。
章节 01
本文基于OpenEnvision维护的Awesome Multimodal Modeling资源列表,系统梳理多模态AI的发展脉络,涵盖传统多模态模型、多模态大语言模型(MLLM)、统一多模态模型(UMM)、原生多模态模型(NMM)四大演进阶段,以及MLLM、UMM、NMM三大核心范式,为研究者提供清晰的分类体系与架构对比,助力理清领域技术演进路径。
章节 02
多模态AI领域从早期图像-文本对齐发展到视频理解、音频生成、跨模态推理,技术快速演进但伴随概念混乱:MLLM、UMM、NMM的定义与区别不明确,架构设计背后的技术考量缺乏系统性梳理。Awesome Multimodal Modeling资源列表应运而生,不仅是论文项目集合,更是多模态AI知识图谱,旨在解决这些问题。
章节 03
资源列表将多模态模型划分为四个阶段:
章节 04
| 维度 | MLLM | UMM | NMM |
|---|---|---|---|
| 训练成本 | 低(冻结LLM) | 中(多模态预训练) | 高(原生多模态预训练) |
| 模态对称性 | 低(语言为主) | 高 | 高 |
| 生成能力 | 有限(主要文本) | 强(多模态生成) | 强(多模态生成) |
| 推理效率 | 高 | 中 | 取决于架构设计 |
| 适用场景 | 视觉理解、VQA | 多模态生成、编辑 | 通用多模态助手 |
章节 05
该资源列表的价值体现在:
章节 06
基于资源列表框架,研究者可参考以下建议: