章节 01
InternVideo3:多模态上下文推理赋能视频智能体(导读)
本文介绍由上海人工智能实验室/OpenGVLab开发的InternVideo3,通过多模态上下文推理(MCR)和多模态多头潜在注意力(M²LA)技术,将开源多模态模型扩展为支持长时程视频理解和迭代交互的视觉智能体。该模型解决了视频理解中的长时程依赖、时间动态性等挑战,开源项目地址为https://github.com/OpenGVLab/InternVideo,原文发布于arXiv(2026-06-10,链接:http://arxiv.org/abs/2606.12195v1)。