# 多模态模型全景图谱：从MLLM到NMM的架构演进之路

> Awesome Multimodal Modeling资源列表系统梳理了多模态AI的发展脉络，涵盖多模态大语言模型、统一多模态模型和原生多模态模型三大范式，为研究者提供清晰的分类体系和架构对比。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-13T08:59:01.000Z
- 最近活动: 2026-04-13T09:22:18.297Z
- 热度: 141.6
- 关键词: 多模态模型, MLLM, 统一多模态模型, 原生多模态模型, 视觉语言模型, 多模态AI, 架构演进, Awesome列表
- 页面链接: https://www.zingnex.cn/forum/thread/mllmnmm
- Canonical: https://www.zingnex.cn/forum/thread/mllmnmm
- Markdown 来源: ingested_event

---

## 引言：多模态AI的范式之争\n\n当我们谈论多模态人工智能时，实际上是在讨论一个极其广阔的领域。从早期的图像-文本对齐，到今天的视频理解、音频生成、跨模态推理，多模态技术正在经历快速的范式演进。\n\n然而，这种快速发展也带来了概念上的混乱：什么是多模态大语言模型（MLLM）？统一多模态模型（UMM）与原生多模态模型（NMM）有何区别？不同的架构设计背后有什么技术考量？\n\nOpenEnvision维护的Awesome Multimodal Modeling资源列表，正是为了回答这些问题。它不仅是一个论文和项目的集合，更是一份系统性的多模态AI知识图谱，帮助研究者理清这个复杂领域的演进脉络。\n\n## 多模态模型的演进阶段\n\n资源列表将多模态模型的发展划分为四个清晰的阶段，这种划分对于理解技术演进至关重要。\n\n### 第一阶段：传统多模态模型\n\n在深度学习早期，多模态研究主要集中在表示学习和模态对齐上。\n\n**核心问题**：如何将不同模态（图像、文本、音频）映射到统一的表示空间？\n\n**关键技术**：\n- **多模态表示**：为每种模态设计专门的编码器\n- **多模态融合**：在特征层面或决策层面融合不同模态的信息\n- **多模态对齐**：通过对比学习等方法建立跨模态的语义对应\n\n代表工作包括早期的图像-文本检索模型、视觉问答系统等。这些模型通常是任务特定的，缺乏统一的架构框架。\n\n### 第二阶段：多模态大语言模型（MLLMs）\n\n随着GPT、LLaMA等大语言模型的崛起，研究者开始探索如何将视觉能力"嫁接"到强大的语言模型上。\n\n**核心思想**：冻结预训练好的LLM，通过轻量级的视觉适配器（Vision Adapter）将图像特征投影到语言模型的输入空间。\n\n**视觉适配器的类型**：\n\n1. **MLP/其他投影器（Projector）**：最简单的线性或非线性变换，将视觉特征映射到文本嵌入空间\n\n2. **Q-Former**：来自BLIP-2的设计，使用可学习的查询token从视觉编码器中提取固定数量的特征，减少计算开销\n\n3. **交叉注意力（Cross-Attention）**：在Transformer层中引入跨模态注意力机制，让文本token可以 attend 到视觉特征\n\n4. **混合适配器（Hybrid Adaptor）**：结合多种机制，例如先使用Q-Former压缩视觉信息，再通过交叉注意力进行细粒度交互\n\n**代表模型**：LLaVA、MiniGPT-4、InstructBLIP等\n\n**局限性**：MLLM本质上是"语言模型+视觉插件"的架构，视觉和语言模态的处理并不对称，视觉信息往往被压缩成固定长度的token序列，可能丢失细粒度细节。\n\n### 第三阶段：统一多模态模型（UMMs）\n\nUMM试图打破MLLM的不对称性，采用统一的架构处理所有模态。\n\n**核心思想**：不再区分"主模态"和"辅助模态"，所有模态都通过相同的模型架构进行处理和生成。\n\n**按生成范式分类**：\n\n#### 1. 基于扩散模型（Diffusion-Based）的UMM\n\n扩散模型在图像生成领域取得了巨大成功，也被扩展到多模态场景。\n\n- 通过扩散过程逐步去噪生成目标模态的输出\n- 可以处理图像生成、视频生成、音频生成等多种任务\n- 代表：Stable Diffusion系列、Imagen、VideoPoet等\n\n#### 2. 自回归（Autoregressive, AR）的UMM\n\n自回归模型按照序列顺序逐个生成token，天然适合文本，也被扩展到其他模态。\n\n**像素编码（Pixel Encoding）**：直接建模原始像素，如早期的Image GPT。优点是简单直接，缺点是计算开销巨大，难以处理高分辨率内容。\n\n**语义编码（Semantic Encoding）**：使用预训练的tokenizer将图像/音频转换为离散的语义token，如VQ-VAE、SoundStream。大大降低了序列长度，提高了效率。\n\n**可学习查询编码（Learnable Query Encoding）**：使用可学习的查询向量从输入中提取信息，类似于Q-Former的思路，但更加灵活。\n\n**混合编码（Hybrid Encoding）**：结合多种编码策略，例如先用语义编码压缩信息，再用像素编码恢复细节。\n\n#### 3. 混合（AR + Diffusion）UMM\n\n结合自回归和扩散模型的优势：\n\n- 自回归模型擅长处理序列决策和高层语义规划\n- 扩散模型擅长生成高质量的连续数据（图像、视频）\n- 典型流程：AR模型先生成高层计划或语义token，扩散模型再基于这些token生成具体内容\n\n### 第四阶段：原生多模态模型（NMMs）\n\nNMM代表了多模态AI的最新范式，其核心特征是"从原生多模态数据预训练"和"端到端统一架构"。\n\n**核心思想**：\n- 不再从单模态预训练模型（如纯文本LLM）出发\n- 而是从海量未配对的多模态数据中进行端到端预训练\n- 模型架构从设计之初就考虑多模态处理，而非后期拼接\n\n**融合策略分类**：\n\n#### 早期融合（Early Fusion）\n\n在输入层就将不同模态的数据融合在一起：\n\n- 将所有模态都token化，拼接成统一的序列\n- 使用单一的Transformer处理融合后的序列\n- 优点：模态间交互充分，可以捕捉细粒度的跨模态关系\n- 缺点：计算复杂度高，需要处理异构的输入格式\n\n代表：Gemini、GPT-4o（推测）等\n\n#### 晚期融合（Late Fusion）\n\n先在各模态内部进行处理，再在高层进行融合：\n\n- 每个模态有独立的编码器\n- 在高层使用注意力机制或其他融合策略\n- 优点：可以利用单模态预训练的优势，计算效率较高\n- 缺点：模态间交互相对较弱\n\n## 架构对比与选择指南\n\n面对这么多不同的架构范式，开发者应该如何选择？\n\n| 维度 | MLLM | UMM | NMM |\n|------|------|-----|-----|\n| 训练成本 | 低（冻结LLM） | 中（需多模态预训练） | 高（原生多模态预训练） |\n| 模态对称性 | 低（语言为主） | 高 | 高 |\n| 生成能力 | 有限（主要是文本） | 强（多模态生成） | 强（多模态生成） |\n| 推理效率 | 高 | 中 | 取决于架构设计 |\n| 适用场景 | 视觉理解、VQA | 多模态生成、编辑 | 通用多模态助手 |\n\n### 选择建议\n\n**如果你的场景是**：\n- 视觉问答、图像描述、视觉推理 → 选择MLLM\n- 图像生成、视频生成、多模态编辑 → 选择UMM\n- 构建通用的多模态AI助手 → 关注NMM的发展\n\n## 资源列表的价值与使用方式\n\nAwesome Multimodal Modeling不仅仅是一个链接集合，它的价值在于：\n\n### 1. 系统性的分类体系\n\n资源列表提供了清晰的分类框架，帮助研究者快速定位感兴趣的方向。无论你是刚入门的新手，还是寻找特定技术细节的资深研究者，都能从中受益。\n\n### 2. 架构演进的时间线\n\n通过按阶段组织的结构，可以清晰地看到多模态AI的发展脉络。这对于理解技术趋势、预测未来方向非常有帮助。\n\n### 3. 丰富的图表和可视化\n\n资源列表包含了大量的架构图、对比表和流程图，这些可视化内容大大降低了理解复杂技术的门槛。\n\n### 4. 持续更新\n\n作为开源项目，Awesome Multimodal Modeling会持续跟进最新的研究进展，保持内容的时效性。\n\n## 对多模态研究者的建议\n\n基于这个资源列表的框架，我有以下几点建议：\n\n### 1. 建立全景视野\n\n不要只关注单一的技术点，而要理解整个多模态AI的版图。MLLM、UMM、NMM不是互相替代的关系，而是针对不同场景的不同解决方案。\n\n### 2. 关注架构设计背后的 trade-off\n\n每种架构都有其优势和局限。理解这些trade-off（如计算效率vs模态交互充分性），才能在自己的工作中做出明智的选择。\n\n### 3. 跟踪NMM的发展\n\n原生多模态模型代表了未来的方向。虽然目前的NMM大多是闭源的（如GPT-4o、Gemini），但开源社区正在快速跟进。关注这一领域的进展，将有助于把握未来的技术趋势。\n\n### 4. 实践与理论结合\n\n资源列表提供了丰富的理论框架，但真正的理解来自实践。建议挑选几个代表性的开源模型（如LLaVA、Stable Diffusion）进行实验，亲身体验不同架构的特点。\n\n## 结语\n\n多模态AI正在从"能用的技术"向"好用的产品"转变。在这个过程中，对技术架构的深入理解将变得越来越重要。\n\nAwesome Multimodal Modeling资源列表为我们提供了一张清晰的地图，帮助我们在复杂的技术森林中找到方向。无论你是研究者、工程师还是产品经理，这份资源都值得收藏和反复研读。\n\n多模态AI的未来充满可能，而理解过去和现在的技术演进，将帮助我们更好地创造未来。