Zing 论坛

正文

WBench:交互式视频世界模型评估的综合多轮基准测试

美团团队推出WBench基准测试,涵盖289个测试用例和1058个交互轮次,从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度全面评估交互式世界模型。

世界模型视频生成基准测试多模态评估交互式AI美团
发布时间 2026/05/25 22:01最近活动 2026/05/26 13:48预计阅读 2 分钟
WBench:交互式视频世界模型评估的综合多轮基准测试
2

章节 02

背景:现有交互式世界模型评估的三大挑战

交互式世界模型在游戏、影视等领域应用前景广阔,但现有评估存在不足:

  1. 评估维度碎片化,缺乏统一框架;
  2. 缺乏多轮交互测试,难以模拟真实场景;
  3. 控制方式不统一,模型间难以公平比较。
3

章节 03

WBench核心设计:五个关键评估维度

WBench从五个维度评估模型:

  1. 视频质量:清晰度、连贯性、真实感;
  2. 设定遵循:准确理解场景、风格、主体等设定;
  3. 交互遵循:多轮交互中执行指令并记忆历史;
  4. 一致性:跨轮次主体、场景、时间的稳定;
  5. 物理合规:符合重力、碰撞等物理规律。
4

章节 04

WBench测试数据集与交互类型

数据集包含289个测试用例、1058个交互轮次,覆盖场景(室内/室外等)、风格(写实/卡通等)、主体(人物/动物等)、视角(第一/第三人称)多样性。 交互类型有四种:导航、主体动作、事件编辑、视角切换。 导航任务统一三种控制方式:文本控制、6自由度姿态、离散动作,确保公平比较。

5

章节 05

WBench评估方法:22项自动子指标

WBench采用22项自动子指标评估:

  • 结合计算机视觉模型评估视频质量、物体检测等;
  • 利用大型多模态模型判断语义理解和一致性;
  • 所有指标经人工标注验证,确保与人工判断一致。
6

章节 06

主要发现:没有全能模型,各模型各有优劣

测试20个先进模型发现:无单一模型在所有维度表现优异。不同模型特点:

  • 部分模型视频质量出色,但物理合规性差;
  • 部分擅长设定遵循,但多轮一致性不足;
  • 部分在特定交互类型突出,其他类型平平。这揭示领域仍需提升。