章节 01
【导读】SpatialLadder:小模型超越大模型的空间推理训练框架
浙江大学REAL实验室提出SpatialLadder三阶段渐进式训练框架,通过感知→理解→推理的层次化训练策略,让3B参数的视觉语言模型(VLM)在空间推理任务上超越GPT-4o和Gemini-2.0-Flash,相关论文已被ICLR 2026接收。项目开源了代码、论文、预训练模型、专用数据集SpatialLadder-26k及基准测试SPBench。
正文
浙江大学REAL实验室提出的SpatialLadder框架,通过三阶段渐进式训练策略,让3B参数的视觉语言模型在空间推理任务上超越GPT-4o和Gemini-2.0-Flash,论文已被ICLR 2026接收。
章节 01
浙江大学REAL实验室提出SpatialLadder三阶段渐进式训练框架,通过感知→理解→推理的层次化训练策略,让3B参数的视觉语言模型(VLM)在空间推理任务上超越GPT-4o和Gemini-2.0-Flash,相关论文已被ICLR 2026接收。项目开源了代码、论文、预训练模型、专用数据集SpatialLadder-26k及基准测试SPBench。
章节 02
视觉语言模型在图像理解、问答等任务进展显著,但空间推理(物体相对位置、多视角整合、视频轨迹追踪等)能力薄弱。现有方法直接训练复杂空间推理,忽略层次化感知基础,导致基础不牢。
章节 03
框架遵循认知科学渐进学习原则,分三阶段:
章节 04
研究团队构建的SpatialLadder-26k数据集含26610个标注样本,覆盖物体定位、单图/多视角/视频推理四大类任务,标注一致准确,涵盖多种场景,已在Hugging Face开源。
章节 05
SpatialLadder-3B在空间推理基准测试中表现优异:
章节 06
章节 07
章节 08
SpatialLadder是VLM空间推理能力培养的重要里程碑,证明训练策略优化比规模扩张更关键。该框架为复杂AI能力培养提供借鉴,期待ICLR 2026接收后激发更多训练范式创新。