章节 01
导读:大型多模态模型论文资源库——VLMs演进全景导航
由youngtboy维护在GitHub的开源项目Awesome-Large-Multimodal-Model,是一份系统性梳理2021至2026年视觉语言模型(VLMs)发展的论文清单,涵盖CLIP、LLaVA、Qwen3-VL等关键模型与综述文献,为研究者和开发者提供学习路线图,帮助理清技术演进脉络。
正文
一份全面梳理大型多模态模型发展历程的开源论文清单,涵盖2021年至2026年的关键模型与综述文献,为研究者和开发者提供系统性的学习路线图。
章节 01
由youngtboy维护在GitHub的开源项目Awesome-Large-Multimodal-Model,是一份系统性梳理2021至2026年视觉语言模型(VLMs)发展的论文清单,涵盖CLIP、LLaVA、Qwen3-VL等关键模型与综述文献,为研究者和开发者提供学习路线图,帮助理清技术演进脉络。
章节 02
VLMs从图文对齐快速发展到跨模态推理,但每年涌现的数十篇论文和项目让研究者难以定位奠基性工作、技术趋势及模型传承关系,亟需系统性梳理的资源库来解决这一痛点。
章节 03
项目以编年体方式组织2021-2026年的VLMs资源,每个条目包含模型简称、完整标题、发表会议/期刊、论文链接、代码仓库(如有);另设Survey章节收录5篇综述,为初学者提供入门指引。
章节 04
1.奠基期(2021):CLIP开启图文预训练时代;2.统一架构探索(2022-2023):BLIP/LLaVA/Qwen-VL等探索指令调优范式;3.规模化与工程优化(2023-2024):InternVL/DeepSeek-VL等刷新性能边界;4.专业化突破(2024-2025):MedVLM-R1/DeepSeek-OCR等垂直领域应用;5.推理强化(2025至今):R1-V/Qwen3-VL引入强化学习提升推理能力。
章节 05
1.开源生态繁荣,多数项目开源加速领域发展;2.中文学术力量崛起(Qwen-VL/InternVL等模型表现突出);3.技术路线收敛(指令调优成标准)与分化(无编码器/生成式预训练等探索)并存;4.从“理解”向“推理”的范式转变。
章节 06
学术研究者可快速定位关键论文、追踪成果;工业开发者可评估模型选型;入门者从综述开始学习。建议:先读综述建立宏观认知,优先选择有开源代码的项目,按年份追踪技术传承,结合应用场景思考模型设计取舍。