章节 01
导读 / 主楼:AlloSpatial:赋予多模态大模型 allocentric 空间推理能力的 Agentic 框架
AlloSpatial 是一个为视觉语言模型赋予 allocentric(以世界为中心)空间推理能力的 Agentic 框架,通过 World2Mind 认知映射沙盒将 egocentric 视频/多视角图像转换为结构化空间先验,并采用三阶段空间推理 Harness 实现工具调用判断、证据收集与几何-语义仲裁。
正文
AlloSpatial 是一个为视觉语言模型赋予 allocentric(以世界为中心)空间推理能力的 Agentic 框架,通过 World2Mind 认知映射沙盒将 egocentric 视频/多视角图像转换为结构化空间先验,并采用三阶段空间推理 Harness 实现工具调用判断、证据收集与几何-语义仲裁。
章节 01
AlloSpatial 是一个为视觉语言模型赋予 allocentric(以世界为中心)空间推理能力的 Agentic 框架,通过 World2Mind 认知映射沙盒将 egocentric 视频/多视角图像转换为结构化空间先验,并采用三阶段空间推理 Harness 实现工具调用判断、证据收集与几何-语义仲裁。
章节 02
章节 03
--query "房间里有多少把椅子?" --model gpt-5.2\n\n\n**3. 使用训练后的 AlloSpatial 模型:**\nbash\nMODEL=/path/to/AlloSpatial-checkpoint bash inference/start_server.sh --port 8003\npython inference/demo_vllm.py --video /path/to/video.mp4 \
--query "描述空间布局" --server-url http://localhost:8003/v1\n```\n\n## 研究背景与团队\n\nAlloSpatial 由华为诺亚方舟实验室、北京航空航天大学人工智能研究院、清华大学计算机系联合开发。相关论文《World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models》已被 CVPR ViSCALE Workshop 接收(arXiv:2603.09774)。\n\n研究团队指出,空间推理能力的缺失是当前多模态大模型的关键瓶颈之一。通过显式引入认知映射工具和结构化的推理 harness,可以显著提升模型在复杂空间场景中的表现,同时保持对现有模型架构的兼容性。\n\n## 实际意义与应用场景\n\nAlloSpatial 的发布为多个领域带来了新的可能性:\n\n- 室内机器人导航:机器人可以通过自然语言询问空间关系,获得精确的导航指引\n- 增强现实(AR):AR 系统可以更准确地理解环境布局,实现更自然的虚实融合\n- 智能监控:自动分析监控视频中物体的空间关系,检测异常布局或行为\n- 辅助视障人士:通过语音描述空间环境,帮助视障用户理解周围布局\n\n更重要的是,AlloSpatial 展示了 Agentic AI 的一个发展方向:不是简单地扩大模型规模,而是通过结构化的工具使用和推理流程,让模型能够更好地利用外部专业知识。\n\n## 当前状态与展望\n\n截至 2026 年 6 月,World2Mind 和 AlloSpatial 的训练/推理代码已开源,模型权重和训练数据集将在近期发布。\n\nAlloSpatial 代表了空间推理领域的重要进展,它不仅仅是一个工具包,更是一种新的范式——通过显式的认知映射和结构化的推理 harness,让多模态大模型真正"理解"空间,而不只是"看到"空间。
章节 04
原作者与来源
<tool_call> 格式)\n- Step 1-5 的推理结构\n- AST 和路线地图的解析\n- <Answer>...</Answer> 输出格式\n\n基于 ms-swift 框架实现,支持 Qwen3-VL 等开源多模态模型。\n\n阶段二:GRPO 强化学习\n\n在 SFT 基础上,使用 Group Relative/Sequence Policy Optimization(GRPO)进行强化学习优化。关键特点包括:\n- 实时工具交互:在 rollout 过程中实际调用 World2Mind\n- Harness-Gated Trajectory Reward:综合考量结构正确性、答案准确性、工具使用适当性和输出长度\n- 多服务协作:World2Mind 服务、vLLM rollout 服务器、GRPO trainer 三者协同工作\n\n技术实现细节\n\n仓库结构\n\n\nAlloSpatial/\n├── world2mind/ 认知映射沙盒(DA3 + SAM3 → 点云 → AST + 路线地图),HTTP 服务\n├── inference/ World2Mind + 模型推理:商业 API 和开源/训练后模型\n├── training/ SFT(冷启动)+ GRPO RL:脚本、奖励/调度器插件、ms-swift 补丁\n├── lmms-eval/ 评估框架(包含 World2Mind/盲测/API 基线适配器)\n└── requirements.txt\n\n\n快速开始\n\n1. 启动 World2Mind 服务:\nbash\ncd world2mind\npython start_service.py --gpu_ids 0 --port 8100\n\n\n2. 使用商业模型(零样本):\n```bash\nexport OPENAI_API_KEY=...\npython inference/demo_openai.py --video /path/to/video.mp4 \\