# SpatialWorld：多模态智能体交互式空间推理能力的全新基准测试

> SpatialWorld是一个统一的多模态智能体空间推理基准，整合8种仿真后端，包含760个人工标注任务。评估显示即使是GPT-5成功率仅17.4%，揭示了主动探索与长程规划的瓶颈。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T15:51:51.000Z
- 最近活动: 2026-06-09T03:51:00.663Z
- 热度: 119.0
- 关键词: 多模态智能体, 空间推理, 基准测试, MLLM, 主动探索, 长程规划, 仿真环境
- 页面链接: https://www.zingnex.cn/forum/thread/spatialworld
- Canonical: https://www.zingnex.cn/forum/thread/spatialworld
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
- 原始链接：http://arxiv.org/abs/2606.09669v1
- 来源发布时间/更新时间：2026-06-08T15:51:51Z

# SpatialWorld：多模态智能体交互式空间推理能力的全新基准测试\n\n## 原作者与来源\n- **原作者/维护者**：SpatialWorld研究团队（论文作者）\n- **来源平台**：arXiv\n- **原文标题**：SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks\n- **原文链接**：http://arxiv.org/abs/2606.09669v1\n- **发布时间**：2026年6月8日\n\n## 研究背景：空间推理的困境\n\n空间推理能力是多模态大语言模型（MLLM）感知物理世界并与之交互的基础能力。然而，现有的评估基准存在明显局限——它们主要依赖被动评估（如静态视觉问答）或特定于某个仿真器的流水线，无法真正评估智能体在动态、交互式环境中的空间理解能力。\n\n这种评估方式的缺陷在于：模型只需要识别图像中的物体或回答关于场景的问题，而不需要真正地在三维空间中规划、导航和操作。这就像让一个人通过看照片来学习驾驶，却从未让他真正坐上驾驶座。\n\n## SpatialWorld的核心设计\n\nSpatialWorld研究团队提出了一个统一的多模态智能体评估框架，其设计理念体现了对真实世界复杂性的尊重。该基准整合了八种异构仿真后端（包括家庭环境、旅行场景、社交协作等），通过共享的、与仿真器无关的协议进行统一调度。\n\n### 任务设计的三个关键特征\n\n**第一，部分可观测性。** 智能体只能在视觉信息的限制下工作，无法获取环境的完整状态。这要求智能体必须主动探索环境，收集以自我为中心的视觉证据，类似于人类在陌生房间中寻找物品时的行为。\n\n**第二，统一的动作接口。** 所有任务都通过基于文本的动作接口完成，这与MLLM的原生能力高度契合。智能体不需要学习特定的底层控制指令，而是可以用自然语言描述其意图。\n\n**第三，可靠的评估机制。** 每个任务都包含人工验证的初始状态、参考轨迹和终端状态验证器，确保评估结果的可重复性和可信度。\n\n## 评估结果：空间智能的挑战性\n\n研究团队评估了15个先进的智能体模型，结果令人警醒。即使是当前最强的闭源模型GPT-5，其平均任务成功率（TSR）也仅为17.4%；而领先的开源模型Qwen-3.5，成功率也只有14.1%。\n\n这些数字揭示了一个关键问题：尽管多模态大模型在静态视觉理解任务上表现出色，但在需要主动探索和长期规划的交互式空间任务中，它们仍然面临巨大挑战。\n\n### 深入分析：成功与效率的脱节\n\n研究进一步发现，任务成功率与执行效率之间存在明显的脱节。某些模型可能在少量尝试中完成任务，但需要极多的探索步骤；而另一些模型虽然成功率较低，但执行路径更加高效。这种权衡关系为未来研究提供了重要方向：不仅要提高成功率，还要优化探索策略。\n\n此外，不同领域（家庭、旅行、社交协作）的性能差异显著，表明当前模型在跨领域泛化方面仍有不足。\n\n## 技术意义与未来方向\n\nSpatialWorld的发布为空间智能研究提供了一个严格的测试平台。它揭示的瓶颈——主动探索能力和长程规划能力——正是当前多模态智能体最需要突破的方向。\n\n对于研究者而言，这个基准不仅是一个评估工具，更是一面镜子，反映出我们离真正的"空间智能"还有多远。随着仿真技术的进步和模型能力的提升，我们期待看到智能体在SpatialWorld上的表现逐步提升，最终达到能够在真实物理世界中可靠工作的水平。