正文

多模态大语言模型研究全景：从VITA系列到Video-MME-v2的最新进展

本文综合梳理了多模态大语言模型（MLLM）领域的最新研究进展，涵盖VITA系列全模态模型、Video-MME-v2视频理解基准、以及Qwen、InternVL、MiniCPM等主流模型的技术突破，展现该领域在统一理解生成、长上下文处理、实时交互等方向的快速发展态势。

多模态大语言模型MLLMVITAVideo-MMEQwenInternVLMiniCPM全模态模型视频理解开源AI

发布时间 2026/04/09 17:08最近活动 2026/04/09 17:22预计阅读 3 分钟

章节 01

【导读】多模态大语言模型研究全景：VITA系列与Video-MME-v2最新进展

本文综合梳理多模态大语言模型（MLLM）领域最新进展，涵盖VITA系列全模态模型、Video-MME-v2视频理解基准、Qwen/InternVL/MiniCPM等主流模型技术突破，展现该领域在统一理解生成、长上下文处理、实时交互等方向的快速发展态势。MLLM正从专用到通用、从理解到生成、从数字到物理变革，开源生态繁荣，大规模应用前夜已至。

章节 02

【背景】多模态AI的发展与评估挑战

多模态大语言模型（MLLM）经历爆发式发展：从图文任务简单模型到同时理解视觉/听觉/语言并实时交互的全模态系统。南京大学多模态智能组（NJU-MiG）资源库梳理核心进展。

综述研究方面：

MME-Survey：首个MLLM评估全面综述，指出评估维度单一、真实场景覆盖不足、鲁棒性测试缺乏等挑战；
统一多模态理解与生成：传统分任务模型转向单一架构统一处理，优势为知识共享和效率提升，但模态对齐和生成质量仍存挑战。

章节 03

【核心进展】VITA系列：迈向实时交互与全模态能力

VITA（Vision, Interaction, Text, Audio）系列是腾讯与南京大学联合开发的开源全模态大语言模型，代表开源MLLM最高水平之一：

VITA-1.5：NeurIPS2025 Highlight论文，实现接近GPT-4o的实时视觉语音交互，支持同时看/听/说，响应延迟显著降低；
VITA-E：扩展至并发看/听/说/行动能力，向物理世界交互迈进；
Long-VITA：解决长上下文难题，扩展至100万Token，短上下文任务保持领先准确率；
VITA-Audio：采用快速交错跨模态Token生成技术，提升语音-语言模型推理效率。

章节 04

【基准测试】Video-MME-v2引领视频理解评估新阶段

Video-MME-v2是当前最全面的视频理解基准，相比前代突破：

视频时长覆盖更广（几秒到数小时）；
任务类型更丰富（理解/推理/时序定位等）；
难度分层更精细（基础感知到高阶推理）；
真实场景更多样（教育/娱乐/体育/新闻等）。

该基准为视频理解模型研发提供权威评估标准，推动子领域发展。

章节 05

【主流模型】Qwen、InternVL、MiniCPM等开源模型技术突破

主流开源MLLM技术突破：

Qwen系列（阿里）：Qwen3.5-Omni向原生全模态通用AI迈进，Qwen3-VL视觉能力领先，Qwen2.5系列在细粒度理解和全模态交互突破；
InternVL系列（上海AI实验室）：InternVL3.5通用性/推理/效率全面进阶，InternVL-U为统一多模态模型，InternVL3探索训练测试优化策略，是学术界工业界基线；
MiniCPM系列（清华OpenBMB）：MiniCPM-o4.5在手机端实现GPT-4o级别单图/多图/视频理解，MiniCPM-V4.5优化视觉任务，开辟移动AI应用可能。

章节 06

【技术趋势】MLLM的新兴方向：统一、推理、长上下文与具身智能

MLLM新兴研究方向：

统一理解与生成：Show-o/Show-o2、Emu3.5、MMaDA、Omni-Diffusion等模型尝试单一架构处理理解生成任务；
多模态推理增强：GLM-4.1V-Thinking（强化学习推理）、LlamaV-o1（逐步视觉推理）、Skywork R1V2（混合强化学习）、QVQ等提升推理能力；
长视频与长上下文：Long-VITA（百万Token）、LongVU（时空压缩）、Eagle2.5（后训练优化）、TimeMarker（时间定位）；
具身智能与机器人：VITA-VLA（动作专家蒸馏）、VITA-E（具身交互）结合感知与行动。

章节 07