Zing 论坛

正文

SpatialWorld:多模态智能体交互式空间推理能力的全新基准测试

SpatialWorld是一个统一的多模态智能体空间推理基准,整合8种仿真后端,包含760个人工标注任务。评估显示即使是GPT-5成功率仅17.4%,揭示了主动探索与长程规划的瓶颈。

多模态智能体空间推理基准测试MLLM主动探索长程规划仿真环境
发布时间 2026/06/08 23:51最近活动 2026/06/09 11:51预计阅读 2 分钟
SpatialWorld:多模态智能体交互式空间推理能力的全新基准测试
1

章节 01

SpatialWorld基准测试:多模态智能体空间推理的核心挑战

SpatialWorld是一个全新的多模态智能体交互式空间推理基准测试,整合8种异构仿真后端(涵盖家庭环境、旅行场景、社交协作等),包含760个人工标注任务。评估结果显示,即使是当前最强的闭源模型GPT-5,其平均任务成功率仅为17.4%,揭示了多模态智能体在主动探索与长程规划能力上的显著瓶颈。该基准来自arXiv 2026年6月8日发布的论文(链接:http://arxiv.org/abs/2606.09669v1)。

2

章节 02

研究背景:现有空间推理评估的局限

空间推理是多模态大语言模型(MLLM)感知并交互物理世界的基础能力,但现有评估基准存在明显缺陷:主要依赖被动评估(如静态视觉问答)或特定仿真器的流水线,无法真正评估智能体在动态、交互式环境中的空间理解能力。这种方式如同让一个人通过看照片学习驾驶,却从未实际操作,难以反映真实的空间推理水平。

3

章节 03

SpatialWorld的核心设计特点

SpatialWorld采用统一的多模态智能体评估框架,设计理念贴合真实世界复杂性:

  1. 多仿真后端整合:覆盖8种异构场景(家庭、旅行、社交协作等),通过仿真器无关协议统一调度;
  2. 任务关键特征
    • 部分可观测性:智能体仅能获取有限视觉信息,需主动探索环境;
    • 统一文本动作接口:与MLLM原生能力契合,无需学习底层控制指令;
    • 可靠评估机制:人工验证初始状态、参考轨迹及终端状态验证器,确保结果可重复与可信。
4

章节 04

评估结果:智能体空间推理能力的现状

研究团队对15个先进智能体模型进行评估,结果显示:

  • 闭源模型GPT-5平均任务成功率(TSR)仅17.4%;
  • 开源模型Qwen-3.5成功率为14.1%; 进一步分析发现:任务成功率与执行效率存在脱节(部分模型成功但步骤多,部分高效但成功率低);不同领域(家庭/旅行/社交)性能差异显著,跨领域泛化能力不足。
5

章节 05

技术意义与未来研究方向

SpatialWorld为空间智能研究提供了严格的测试平台,揭示了当前多模态智能体需突破的核心瓶颈:主动探索能力与长程规划能力。未来研究可聚焦于:

  • 提升主动探索与长程规划的效率与成功率;
  • 增强跨领域泛化能力; 随着仿真技术与模型能力的进步,期待智能体在该基准上的表现逐步提升,最终实现真实物理世界的可靠交互。