正文

WBench：交互式视频世界模型评估的综合多轮基准测试

美团团队推出WBench基准测试，涵盖289个测试用例和1058个交互轮次，从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度全面评估交互式世界模型。

世界模型视频生成基准测试多模态评估交互式AI美团

发布时间 2026/05/25 22:01最近活动 2026/05/26 13:48预计阅读 2 分钟

章节 01

WBench：交互式视频世界模型评估的综合多轮基准测试导读

美团团队推出WBench基准测试，旨在全面评估交互式视频世界模型。该基准涵盖289个测试用例和1058个交互轮次，从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度进行评估。代码与数据已开源（GitHub链接：https://github.com/meituan-longcat/WBench），为学术界和工业界提供统一评估标准。

章节 02

交互式世界模型在游戏、影视等领域应用前景广阔，但现有评估存在不足：

章节 03

WBench从五个维度评估模型：

章节 04

数据集包含289个测试用例、1058个交互轮次，覆盖场景（室内/室外等）、风格（写实/卡通等）、主体（人物/动物等）、视角（第一/第三人称）多样性。交互类型有四种：导航、主体动作、事件编辑、视角切换。导航任务统一三种控制方式：文本控制、6自由度姿态、离散动作，确保公平比较。

章节 05

WBench采用22项自动子指标评估：

章节 06

测试20个先进模型发现：无单一模型在所有维度表现优异。不同模型特点：

章节 07