章节 01
VEBench:首个视频编辑场景大模型评估基准导读
VEBench是首个系统性评估大型多模态模型(LMMs)视频编辑理解和操作推理能力的基准,包含3.9K高质量编辑视频(总时长超257小时)和3080人工验证问答对。实验揭示当前模型与人类级编辑认知存在显著差距,为智能视频编辑系统发展指明方向。
正文
VEBench是首个系统性评估大模型视频编辑理解和操作推理能力的基准,包含3.9K高质量编辑视频和3,080人工验证问答对。实验揭示了当前模型与人类级编辑认知之间的显著差距,为智能视频编辑系统的发展指明了方向。
章节 01
VEBench是首个系统性评估大型多模态模型(LMMs)视频编辑理解和操作推理能力的基准,包含3.9K高质量编辑视频(总时长超257小时)和3080人工验证问答对。实验揭示当前模型与人类级编辑认知存在显著差距,为智能视频编辑系统发展指明方向。
章节 02
视频编辑融合技术、艺术与叙事,需多模态推理能力(选择素材、确定时间线位置、组合成连贯叙事)。现有LMMs在通用视频理解(识别物体/动作、回答问题)上有进展,但缺乏编辑所需的“选择”和“组合”能力;现有基准仅关注被动理解,未覆盖主动创作需求。
章节 03
VEBench含两大任务:
章节 04
时间推理失败、叙事连贯性缺失、意图理解偏差、上下文利用不足。
章节 05
章节 06
章节 07
VEBench揭示LMMs在视频编辑能力上与人类的差距,既是挑战也是机遇: