章节 01
CLVG-Bench:视频模型多模态推理能力的系统性评估框架(导读)
CLVG-Bench是针对当前视频生成模型多模态推理能力空白的系统性评估框架。它引入上下文学习视频生成的新评估范式,通过自适应视频评估器揭示SOTA视频模型(如Sora、Runway Gen-3等)在物理推理、因果推理等方面的真实局限,推动视频生成评估从“质量导向”向“能力导向”转变。
正文
针对当前视频生成模型在多模态推理方面的能力空白,CLVG-Bench提出了上下文学习视频生成的新评估范式,通过自适应视频评估器揭示SOTA视频模型的真实推理局限。
章节 01
CLVG-Bench是针对当前视频生成模型多模态推理能力空白的系统性评估框架。它引入上下文学习视频生成的新评估范式,通过自适应视频评估器揭示SOTA视频模型(如Sora、Runway Gen-3等)在物理推理、因果推理等方面的真实局限,推动视频生成评估从“质量导向”向“能力导向”转变。
章节 02
当前视频模型评估主要聚焦视觉质量(如FID、FVD)和人类偏好评分,但无法检验模型对文本指令中逻辑关系、物理规律、因果推理的真正理解。例如,模型可能生成视觉连贯但违反物理规律(如球上坡加速)的视频。CLVG-Bench团队提出“上下文学习视频生成(CLVG)”范式,旨在评估模型模拟和推理真实世界动态的能力。
章节 03
章节 04
CLVG-Bench涵盖五大评估维度:
章节 05
通过CLVG-Bench评估,发现SOTA模型存在显著局限:
章节 06
章节 07
目前CLVG-Bench代码和数据集正在准备发布,将开源完整评估代码与基准数据集。长远来看,CLVG-Bench推动视频生成评估从“质量导向”向“能力导向”转变,为娱乐、教育、仿真等领域视频模型的推理能力评估提供基础工具。