章节 01
【导读】PlanBench-V:首个空间规划图VLM评测基准发布
PlanBench-V是首个专门评估视觉语言模型(VLMs)在空间规划图解读能力的综合评测基准。该基准由arXiv作者团队于2026年6月4日发布(链接:http://arxiv.org/abs/2606.05744v1),构建包含223张规划图和1629个专家标注问答对的数据集,通过感知、推理、关联、实施四维框架揭示当前VLMs能力边界,并已开源代码与数据集(https://plangpt.github.io)。
正文
PlanBench-V 是首个专门评估视觉语言模型在空间规划图解读能力上的综合基准,通过构建包含223张规划图和1629个问答对的专家标注数据集,揭示了当前VLMs在感知、推理、关联和实施四个维度上的能力边界。
章节 01
PlanBench-V是首个专门评估视觉语言模型(VLMs)在空间规划图解读能力的综合评测基准。该基准由arXiv作者团队于2026年6月4日发布(链接:http://arxiv.org/abs/2606.05744v1),构建包含223张规划图和1629个专家标注问答对的数据集,通过感知、推理、关联、实施四维框架揭示当前VLMs能力边界,并已开源代码与数据集(https://plangpt.github.io)。
章节 02
空间规划图是国土治理核心工具,需精细视觉感知、空间推理及专业政策判断能力,对人类和AI均构成挑战。现有多模态基准集中于通用视觉任务,忽视规划实践特有的认知过程(如政策含义、法规约束等专业知识需求),缺乏针对空间规划图的专业评测基准。
章节 03
含223张覆盖不同区域和风格的真实规划图,1629个领域专家设计的多层次问答对,确保问题反映规划实践认知挑战。
章节 04
章节 05
研究团队已开源代码和数据集,访问地址:https://plangpt.github.io。开源资源支持复现实验、开发新模型、扩展数据集及建立细粒度评测指标。
章节 06
章节 07
需持续努力的方向: