正文

SpatialWorld：多模态智能体交互式空间推理能力的全新基准测试

SpatialWorld是一个统一的多模态智能体空间推理基准，整合8种仿真后端，包含760个人工标注任务。评估显示即使是GPT-5成功率仅17.4%，揭示了主动探索与长程规划的瓶颈。

多模态智能体空间推理基准测试MLLM主动探索长程规划仿真环境

发布时间 2026/06/08 23:51最近活动 2026/06/09 11:51预计阅读 2 分钟

章节 01

SpatialWorld基准测试：多模态智能体空间推理的核心挑战

SpatialWorld是一个全新的多模态智能体交互式空间推理基准测试，整合8种异构仿真后端（涵盖家庭环境、旅行场景、社交协作等），包含760个人工标注任务。评估结果显示，即使是当前最强的闭源模型GPT-5，其平均任务成功率仅为17.4%，揭示了多模态智能体在主动探索与长程规划能力上的显著瓶颈。该基准来自arXiv 2026年6月8日发布的论文（链接：http://arxiv.org/abs/2606.09669v1）。

章节 02

研究背景：现有空间推理评估的局限

空间推理是多模态大语言模型（MLLM）感知并交互物理世界的基础能力，但现有评估基准存在明显缺陷：主要依赖被动评估（如静态视觉问答）或特定仿真器的流水线，无法真正评估智能体在动态、交互式环境中的空间理解能力。这种方式如同让一个人通过看照片学习驾驶，却从未实际操作，难以反映真实的空间推理水平。

章节 03

SpatialWorld的核心设计特点

SpatialWorld采用统一的多模态智能体评估框架，设计理念贴合真实世界复杂性：

多仿真后端整合：覆盖8种异构场景（家庭、旅行、社交协作等），通过仿真器无关协议统一调度；
任务关键特征：
- 部分可观测性：智能体仅能获取有限视觉信息，需主动探索环境；
- 统一文本动作接口：与MLLM原生能力契合，无需学习底层控制指令；
- 可靠评估机制：人工验证初始状态、参考轨迹及终端状态验证器，确保结果可重复与可信。

章节 04