章节 01
WBench:交互式视频世界模型评估的综合多轮基准测试导读
美团团队推出WBench基准测试,旨在全面评估交互式视频世界模型。该基准涵盖289个测试用例和1058个交互轮次,从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度进行评估。代码与数据已开源(GitHub链接:https://github.com/meituan-longcat/WBench),为学术界和工业界提供统一评估标准。
正文
美团团队推出WBench基准测试,涵盖289个测试用例和1058个交互轮次,从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度全面评估交互式世界模型。
章节 01
美团团队推出WBench基准测试,旨在全面评估交互式视频世界模型。该基准涵盖289个测试用例和1058个交互轮次,从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度进行评估。代码与数据已开源(GitHub链接:https://github.com/meituan-longcat/WBench),为学术界和工业界提供统一评估标准。
章节 02
交互式世界模型在游戏、影视等领域应用前景广阔,但现有评估存在不足:
章节 03
WBench从五个维度评估模型:
章节 04
数据集包含289个测试用例、1058个交互轮次,覆盖场景(室内/室外等)、风格(写实/卡通等)、主体(人物/动物等)、视角(第一/第三人称)多样性。 交互类型有四种:导航、主体动作、事件编辑、视角切换。 导航任务统一三种控制方式:文本控制、6自由度姿态、离散动作,确保公平比较。
章节 05
WBench采用22项自动子指标评估:
章节 06
测试20个先进模型发现:无单一模型在所有维度表现优异。不同模型特点:
章节 07