Zing 论坛

正文

多模态大语言模型研究全景:从VITA系列到Video-MME-v2的最新进展

本文综合梳理了多模态大语言模型(MLLM)领域的最新研究进展,涵盖VITA系列全模态模型、Video-MME-v2视频理解基准、以及Qwen、InternVL、MiniCPM等主流模型的技术突破,展现该领域在统一理解生成、长上下文处理、实时交互等方向的快速发展态势。

多模态大语言模型MLLMVITAVideo-MMEQwenInternVLMiniCPM全模态模型视频理解开源AI
发布时间 2026/04/09 17:08最近活动 2026/04/09 17:22预计阅读 3 分钟
多模态大语言模型研究全景:从VITA系列到Video-MME-v2的最新进展
1

章节 01

【导读】多模态大语言模型研究全景:VITA系列与Video-MME-v2最新进展

本文综合梳理多模态大语言模型(MLLM)领域最新进展,涵盖VITA系列全模态模型、Video-MME-v2视频理解基准、Qwen/InternVL/MiniCPM等主流模型技术突破,展现该领域在统一理解生成、长上下文处理、实时交互等方向的快速发展态势。MLLM正从专用到通用、从理解到生成、从数字到物理变革,开源生态繁荣,大规模应用前夜已至。

2

章节 02

【背景】多模态AI的发展与评估挑战

多模态大语言模型(MLLM)经历爆发式发展:从图文任务简单模型到同时理解视觉/听觉/语言并实时交互的全模态系统。南京大学多模态智能组(NJU-MiG)资源库梳理核心进展。

综述研究方面:

  • MME-Survey:首个MLLM评估全面综述,指出评估维度单一、真实场景覆盖不足、鲁棒性测试缺乏等挑战;
  • 统一多模态理解与生成:传统分任务模型转向单一架构统一处理,优势为知识共享和效率提升,但模态对齐和生成质量仍存挑战。
3

章节 03

【核心进展】VITA系列:迈向实时交互与全模态能力

VITA(Vision, Interaction, Text, Audio)系列是腾讯与南京大学联合开发的开源全模态大语言模型,代表开源MLLM最高水平之一:

  • VITA-1.5:NeurIPS2025 Highlight论文,实现接近GPT-4o的实时视觉语音交互,支持同时看/听/说,响应延迟显著降低;
  • VITA-E:扩展至并发看/听/说/行动能力,向物理世界交互迈进;
  • Long-VITA:解决长上下文难题,扩展至100万Token,短上下文任务保持领先准确率;
  • VITA-Audio:采用快速交错跨模态Token生成技术,提升语音-语言模型推理效率。
4

章节 04

【基准测试】Video-MME-v2引领视频理解评估新阶段

Video-MME-v2是当前最全面的视频理解基准,相比前代突破:

  1. 视频时长覆盖更广(几秒到数小时);
  2. 任务类型更丰富(理解/推理/时序定位等);
  3. 难度分层更精细(基础感知到高阶推理);
  4. 真实场景更多样(教育/娱乐/体育/新闻等)。

该基准为视频理解模型研发提供权威评估标准,推动子领域发展。

5

章节 05

【主流模型】Qwen、InternVL、MiniCPM等开源模型技术突破

主流开源MLLM技术突破:

  • Qwen系列(阿里):Qwen3.5-Omni向原生全模态通用AI迈进,Qwen3-VL视觉能力领先,Qwen2.5系列在细粒度理解和全模态交互突破;
  • InternVL系列(上海AI实验室):InternVL3.5通用性/推理/效率全面进阶,InternVL-U为统一多模态模型,InternVL3探索训练测试优化策略,是学术界工业界基线;
  • MiniCPM系列(清华OpenBMB):MiniCPM-o4.5在手机端实现GPT-4o级别单图/多图/视频理解,MiniCPM-V4.5优化视觉任务,开辟移动AI应用可能。
6

章节 06

【技术趋势】MLLM的新兴方向:统一、推理、长上下文与具身智能

MLLM新兴研究方向:

  1. 统一理解与生成:Show-o/Show-o2、Emu3.5、MMaDA、Omni-Diffusion等模型尝试单一架构处理理解生成任务;
  2. 多模态推理增强:GLM-4.1V-Thinking(强化学习推理)、LlamaV-o1(逐步视觉推理)、Skywork R1V2(混合强化学习)、QVQ等提升推理能力;
  3. 长视频与长上下文:Long-VITA(百万Token)、LongVU(时空压缩)、Eagle2.5(后训练优化)、TimeMarker(时间定位);
  4. 具身智能与机器人:VITA-VLA(动作专家蒸馏)、VITA-E(具身交互)结合感知与行动。
7

章节 07

【挑战与展望】MLLM领域的现存问题与未来发展

MLLM面临挑战:

  1. 模态对齐:不同模态表示空间对齐;
  2. 幻觉问题:输出与输入不符;
  3. 效率优化:长视频/高分辨率图像处理成本高;
  4. 评估体系:现有基准难全面评估真实能力;
  5. 安全与对齐:多模态场景安全对齐复杂。

未来展望:

  • 真正全模态统一:文本/图像/音频/视频/动作无缝融合;
  • 实时交互:接近人类对话延迟;
  • 端云协同:智能选择端侧或云端执行;
  • 具身智能:从数字走向物理世界的感知与行动。