正文

PlanBench-V：首个面向空间规划图的视觉语言模型评测基准

PlanBench-V 是首个专门评估视觉语言模型在空间规划图解读能力上的综合基准，通过构建包含223张规划图和1629个问答对的专家标注数据集，揭示了当前VLMs在感知、推理、关联和实施四个维度上的能力边界。

Vision-Language Models空间规划城市规划多模态评测基准测试地理信息系统空间推理领域适应性AI

发布时间 2026/06/04 14:17最近活动 2026/06/05 16:49预计阅读 2 分钟

PlanBench-V：首个面向空间规划图的视觉语言模型评测基准

1

章节 01

【导读】PlanBench-V：首个空间规划图VLM评测基准发布

PlanBench-V是首个专门评估视觉语言模型（VLMs）在空间规划图解读能力的综合评测基准。该基准由arXiv作者团队于2026年6月4日发布（链接：http://arxiv.org/abs/2606.05744v1），构建包含223张规划图和1629个专家标注问答对的数据集，通过感知、推理、关联、实施四维框架揭示当前VLMs能力边界，并已开源代码与数据集（https://plangpt.github.io）。

2

章节 02

背景与问题：空间规划图解读的挑战与现有基准不足

空间规划图是国土治理核心工具，需精细视觉感知、空间推理及专业政策判断能力，对人类和AI均构成挑战。现有多模态基准集中于通用视觉任务，忽视规划实践特有的认知过程（如政策含义、法规约束等专业知识需求），缺乏针对空间规划图的专业评测基准。

3

章节 03

核心方法：SPMD数据集与四维评测框架

1. 空间规划图数据库（SPMD）

含223张覆盖不同区域和风格的真实规划图，1629个领域专家设计的多层次问答对，确保问题反映规划实践认知挑战。

2. 四维评测框架

感知：识别地块边界、用地类型等基础视觉元素；
推理：计算距离、分析连通性等空间逻辑关系；
关联：将视觉信息与政策含义（法规约束、开发强度等）关联；
实施：进行评估判断、政策敏感的决策任务（最高层次）。

4

章节 04

实验发现：VLMs代际进步与实施任务瓶颈

代际进步显著：2026年最佳模型Qwen3.6-Plus较2025年GPT-4o整体性能提升27%；
实施类任务瓶颈：所有模型在实施任务（评估判断、政策敏感、约束决策）上表现差，反映专业规划语境下的根本性局限；
需领域适应性框架：通用VLMs需结合领域知识优化才能应对专业任务。

5

章节 05

技术实现与开放资源

研究团队已开源代码和数据集，访问地址：https://plangpt.github.io。开源资源支持复现实验、开发新模型、扩展数据集及建立细粒度评测指标。

6

章节 06

行业启示：规划实践、模型开发与政策制定

城市规划实践：为AI辅助规划工具可靠性提供评估依据；
模型开发：指引VLMs需提升专业领域深度理解；
政策制定：为智能城市等应用的AI部署提供风险评估框架。

7

章节 07

未来展望：智能规划助手的发展方向

需持续努力的方向：

多模态融合（结合遥感、三维模型、实时数据）；
交互式推理（规划师与AI协作分析）；
可解释性（透明化推理过程）；
持续学习（从实践反馈改进系统）。 PlanBench-V是连接AI研究与规划实践的桥梁，为智能城市未来提供技术路线图。