Zing 论坛

正文

城市空域具身导航基准:大模型距离人类级空间行动能力还有多远

本文通过构建包含5037个样本的城市空域目标导向导航数据集,系统评估了17个代表性多模态大模型,揭示了当前模型在关键决策分叉点后的快速偏离现象,并探索了四个改进方向。

具身导航多模态大模型城市空域空间行动能力临界决策分叉点视觉语言行动模型三维空间理解具身智能
发布时间 2026/04/09 16:37最近活动 2026/04/10 10:19预计阅读 2 分钟
城市空域具身导航基准:大模型距离人类级空间行动能力还有多远
1

章节 01

【导读】城市空域具身导航基准研究:大模型空间行动能力现状与挑战

本文旨在评估大型多模态模型(LMMs)的空间行动能力,通过构建包含5037个样本的城市空域目标导向导航数据集,系统评估17个代表性模型,揭示了当前模型在关键决策分叉点后的快速偏离现象,并探索了四个改进方向。研究表明,尽管LMMs具备初步空间行动能力,但距离人类级水平仍有显著差距。

2

章节 02

背景:从视觉理解到空间行动的AI新挑战

LMMs在视觉-语言理解任务上成果显著,但缺乏真正的空间决策与行动能力。具身智能对机器人、自动驾驶等场景至关重要。城市三维空域导航是极具挑战性的测试场景,需综合考验模型的三维空间理解、复杂环境感知及长程规划能力。

3

章节 03

方法:数据集构建与模型评估框架

研究团队投入500小时构建高质量数据集,含5037个样本,基于真实城市三维模型,涵盖多样化任务、垂直动作及丰富语义信息。评估17个模型,分为非推理型LMMs、推理型LMMs、基于智能体的方法、视觉-语言-行动模型(VLAs)四类。

4

章节 04

关键发现:临界决策分叉点的偏离现象及原因

导航错误并非线性累积,而是在临界决策分叉点后迅速偏离。模型失败模式包括几何感知不足、视角理解困难、缺乏空间想象力、长程记忆缺陷等。这表明空间导航核心挑战在于全局结构把握与关键决策准确性。

5

章节 05

改进方向:提升空间行动能力的四个路径

研究探索了四个改进方向:1.几何感知增强(加入几何标注);2.跨视角理解(训练跨视角场景对应);3.空间想象力培养(预测未来观察或动作后果);4.长程记忆机制(引入显式记忆架构)。

6

章节 06

结论与启示:具身AI的发展方向

当前模型有潜力但距实用仍远,核心挑战在高层决策而非低层控制。四个改进方向的组合或产生协同效应。期待更多研究推动具身智能发展,最终实现AI在复杂三维空间自如行动。