正文

大型多模态模型论文资源库：从CLIP到Qwen3-VL的视觉语言模型演进全景

一份全面梳理大型多模态模型发展历程的开源论文清单，涵盖2021年至2026年的关键模型与综述文献，为研究者和开发者提供系统性的学习路线图。

多模态模型视觉语言模型VLMCLIPLLaVAQwen-VLDeepSeek-VLInternVL论文清单人工智能

发布时间 2026/06/02 15:08最近活动 2026/06/02 15:21预计阅读 2 分钟

章节 01

导读：大型多模态模型论文资源库——VLMs演进全景导航

由youngtboy维护在GitHub的开源项目Awesome-Large-Multimodal-Model，是一份系统性梳理2021至2026年视觉语言模型（VLMs）发展的论文清单，涵盖CLIP、LLaVA、Qwen3-VL等关键模型与综述文献，为研究者和开发者提供学习路线图，帮助理清技术演进脉络。

章节 02

背景：为什么需要这份资源清单？

VLMs从图文对齐快速发展到跨模态推理，但每年涌现的数十篇论文和项目让研究者难以定位奠基性工作、技术趋势及模型传承关系，亟需系统性梳理的资源库来解决这一痛点。

章节 03

项目概览：结构与内容组织

项目以编年体方式组织2021-2026年的VLMs资源，每个条目包含模型简称、完整标题、发表会议/期刊、论文链接、代码仓库（如有）；另设Survey章节收录5篇综述，为初学者提供入门指引。

章节 04

技术演进证据：五个关键阶段

1.奠基期（2021）：CLIP开启图文预训练时代；2.统一架构探索（2022-2023）：BLIP/LLaVA/Qwen-VL等探索指令调优范式；3.规模化与工程优化（2023-2024）：InternVL/DeepSeek-VL等刷新性能边界；4.专业化突破（2024-2025）：MedVLM-R1/DeepSeek-OCR等垂直领域应用；5.推理强化（2025至今）：R1-V/Qwen3-VL引入强化学习提升推理能力。

章节 05