Zing 论坛

正文

SpatialLadder:视觉语言模型空间推理能力的三阶段渐进式训练框架

浙江大学REAL实验室提出的SpatialLadder框架,通过三阶段渐进式训练策略,让3B参数的视觉语言模型在空间推理任务上超越GPT-4o和Gemini-2.0-Flash,论文已被ICLR 2026接收。

视觉语言模型空间推理渐进式训练多模态学习强化学习ICLR 2026浙江大学开源模型
发布时间 2026/06/09 15:34最近活动 2026/06/09 15:49预计阅读 2 分钟
SpatialLadder:视觉语言模型空间推理能力的三阶段渐进式训练框架
1

章节 01

【导读】SpatialLadder:小模型超越大模型的空间推理训练框架

浙江大学REAL实验室提出SpatialLadder三阶段渐进式训练框架,通过感知→理解→推理的层次化训练策略,让3B参数的视觉语言模型(VLM)在空间推理任务上超越GPT-4o和Gemini-2.0-Flash,相关论文已被ICLR 2026接收。项目开源了代码、论文、预训练模型、专用数据集SpatialLadder-26k及基准测试SPBench。

2

章节 02

研究背景:VLMs空间推理的瓶颈与现有方法缺陷

视觉语言模型在图像理解、问答等任务进展显著,但空间推理(物体相对位置、多视角整合、视频轨迹追踪等)能力薄弱。现有方法直接训练复杂空间推理,忽略层次化感知基础,导致基础不牢。

3

章节 03

SpatialLadder框架:三阶段渐进式训练策略

框架遵循认知科学渐进学习原则,分三阶段:

  1. 空间感知阶段:通过物体检测/定位任务,建立物体-位置映射,夯实基础;
  2. 空间理解阶段:用SpatialLadder-26k数据集训练单图/多视角/视频空间推理能力;
  3. 复杂推理阶段:引入可验证奖励的强化学习,提升多步推理与空间想象能力。
4

章节 04

数据集支撑:SpatialLadder-26k的特点

研究团队构建的SpatialLadder-26k数据集含26610个标注样本,覆盖物体定位、单图/多视角/视频推理四大类任务,标注一致准确,涵盖多种场景,已在Hugging Face开源。

5

章节 05

实验结果:3B模型超越商业大模型

SpatialLadder-3B在空间推理基准测试中表现优异:

  • 较基础模型平均提升23.4%;
  • 超越GPT-4o 20.8%、Gemini-2.0-Flash 10.1%;
  • 域外基准测试泛化能力提升7.2%。
6

章节 06

技术亮点:三大创新点

  1. 渐进式训练范式:打破端到端训练局限,层次化构建空间智能;
  2. 可验证奖励RL:利用空间推理答案可自动验证的特性,提升训练效率与稳定性;
  3. 高质量专用数据集:标准化构建流程确保数据系统性与一致性。
7

章节 07

应用前景:研究贡献与实际价值

  • 研究贡献:验证渐进式训练有效性、小模型特定领域超越大模型、丰富开源生态;
  • 实际应用:机器人导航、自动驾驶、增强现实、智能监控等场景的空间理解能力提升。
8

章节 08

总结与展望:空间推理训练的里程碑

SpatialLadder是VLM空间推理能力培养的重要里程碑,证明训练策略优化比规模扩张更关键。该框架为复杂AI能力培养提供借鉴,期待ICLR 2026接收后激发更多训练范式创新。