# WBench：交互式视频世界模型评估的综合多轮基准测试

> 美团团队推出WBench基准测试，涵盖289个测试用例和1058个交互轮次，从视频质量、设定遵循、交互遵循、一致性和物理合规五个维度全面评估交互式世界模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-25T14:01:31.000Z
- 最近活动: 2026-05-26T05:48:52.488Z
- 热度: 131.2
- 关键词: 世界模型, 视频生成, 基准测试, 多模态评估, 交互式AI, 美团
- 页面链接: https://www.zingnex.cn/forum/thread/wbench
- Canonical: https://www.zingnex.cn/forum/thread/wbench
- Markdown 来源: ingested_event

---

# WBench：交互式视频世界模型评估的综合多轮基准测试

## 原作者与来源

- **原作者/维护者**：美团团队（Meituan-LongCat）
- **来源平台**：arXiv
- **原文标题**：WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
- **原文链接**：http://arxiv.org/abs/2605.25874v1
- **发布时间**：2026年5月25日

## 背景：为什么需要新的基准测试？

交互式世界模型（Interactive World Models）正在快速发展，这类模型能够根据用户的指令生成或操控视频内容，在游戏、影视制作、虚拟现实等领域具有广阔的应用前景。然而，现有的评估基准往往只覆盖部分能力维度，缺乏统一的标准来系统性地衡量这些模型的综合表现。

具体来说，当前评估面临以下挑战：

1. **评估维度碎片化**：有的基准只关注视频质量，有的只测试交互能力，没有统一的框架同时评估多个维度
2. **缺乏多轮交互测试**：真实应用场景中用户通常需要进行多轮对话和调整，但现有基准多为单轮测试
3. **控制方式不统一**：不同模型支持不同的控制接口（文本、姿态、离散动作），难以公平比较

## WBench的核心设计

WBench是一个全面的多轮基准测试，从五个关键维度评估交互式世界模型：

### 1. 视频质量（Video Quality）

评估生成视频的视觉质量，包括清晰度、连贯性和真实感。这是世界模型最基础的能力要求。

### 2. 设定遵循（Setting Adherence）

检验模型是否准确理解和遵循用户设定的世界环境，包括场景类型、风格、主体等要素。如果模型无法正确理解设定，后续交互将失去意义。

### 3. 交互遵循（Interaction Adherence）

测试模型在多轮交互中是否能够准确执行用户的指令，保持对交互历史的记忆和一致性。

### 4. 一致性（Consistency）

评估跨轮次的主体一致性、场景一致性以及时间连贯性。用户期望在多次交互中，视频中的角色和环境保持稳定。

### 5. 物理合规（Physics Compliance）

检查生成视频是否符合物理规律，如重力、碰撞、光影等自然现象的正确表现。

## 测试数据集构成

WBench包含**289个测试用例**和**1058个交互轮次**，覆盖了丰富多样的场景：

- **场景多样性**：室内、室外、自然景观、城市环境等
- **风格多样性**：写实、卡通、科幻、历史等不同视觉风格
- **主体多样性**：人物、动物、物体、抽象概念等
- **视角多样性**：第一人称和第三人称视角

### 四种交互类型

1. **导航（Navigation）**：在虚拟环境中移动视角或相机位置
2. **主体动作（Subject Action）**：控制视频中角色的行为动作
3. **事件编辑（Event Editing）**：修改或添加视频中的事件
4. **视角切换（Perspective Switching）**：在第一人称和第三人称之间切换

### 统一的控制接口

针对导航任务，WBench创新性地统一了三种控制方式：
- **文本控制**：自然语言描述移动意图
- **6自由度姿态（6-DoF Pose）**：精确的空间位置和朝向控制
- **离散动作（Discrete Action）**：预定义的移动指令（如前、后、左、右）

这种设计使得不同原生接口的模型都能在相同的基准上进行公平比较。

## 评估方法：22项自动子指标

WBench采用**22个自动子指标**进行评估，这些指标结合了专业视觉模型和大型多模态模型的能力：

- 使用专门的计算机视觉模型评估视频质量、物体检测、姿态估计等
- 利用大型多模态模型进行语义理解和一致性判断
- 所有指标都经过人工标注验证，确保与人工判断的一致性

## 主要发现：没有全能模型

研究团队对**20个最先进的世界模型**进行了全面测试，发现了一个重要结论：**没有单一模型在所有维度上都表现优异**。

不同模型呈现出各自的特点：
- 有些模型在视频质量上表现出色，但物理合规性较差
- 有些模型擅长遵循设定，但在多轮一致性上存在问题
- 有些模型在特定交互类型上表现突出，但在其他类型上表现平平

这一发现揭示了交互式世界模型领域仍有巨大的提升空间，也为研究者指明了未来优化的方向。

## 开源与社区贡献

WBench的代码和数据已在GitHub开源：

**https://github.com/meituan-longcat/WBench**

这一开源基准将为学术界和工业界提供统一的评估标准，推动交互式世界模型技术的健康发展。

## 意义与展望

WBench的发布标志着交互式视频世界模型评估进入了一个新的阶段。通过提供全面、系统、可复现的评估框架，WBench将帮助研究者更好地理解模型的优势与不足，加速技术进步。

对于开发者而言，WBench提供了清晰的优化目标；对于用户而言，这意味着未来将有更可靠、更强大的交互式视频生成工具。
