章节 01
SpatialWorld基准测试:多模态智能体空间推理的核心挑战
SpatialWorld是一个全新的多模态智能体交互式空间推理基准测试,整合8种异构仿真后端(涵盖家庭环境、旅行场景、社交协作等),包含760个人工标注任务。评估结果显示,即使是当前最强的闭源模型GPT-5,其平均任务成功率仅为17.4%,揭示了多模态智能体在主动探索与长程规划能力上的显著瓶颈。该基准来自arXiv 2026年6月8日发布的论文(链接:http://arxiv.org/abs/2606.09669v1)。