章节 01
【导读】WikiVQABench:知识驱动的视觉问答新基准,测试多模态模型外部知识推理能力
WikiVQABench是基于Wikipedia和Wikidata构建的知识驱动型视觉问答(VQA)基准测试,旨在评估视觉语言模型(VLMs)在需要外部知识推理场景下的表现。该基准填补了传统VQA基准忽视知识密集型推理需求的空白,通过整合图像、文章标题和结构化知识,为多模态模型的能力评估提供更全面视角。
正文
WikiVQABench是一个基于Wikipedia和Wikidata构建的知识驱动型视觉问答基准测试,通过结合图像、文章标题和结构化知识,评估视觉语言模型在需要外部知识推理的场景下的表现。
章节 01
WikiVQABench是基于Wikipedia和Wikidata构建的知识驱动型视觉问答(VQA)基准测试,旨在评估视觉语言模型(VLMs)在需要外部知识推理场景下的表现。该基准填补了传统VQA基准忽视知识密集型推理需求的空白,通过整合图像、文章标题和结构化知识,为多模态模型的能力评估提供更全面视角。
章节 02
传统VQA基准主要关注感知型任务(可通过图像内容直接回答),但现实场景中许多问题需外部知识才能解答(如埃菲尔铁塔所属城市需地理知识)。现有VQA基准忽视此类知识密集型推理需求,导致VLMs在真实应用中的表现被高估。
章节 03
WikiVQABench整合三类数据源:Wikipedia图像、文章标题、Wikidata结构化知识。通过LLM自动生成图像-问题-答案组合,再经人工审核筛选,确保事实准确、视觉-文本一致、问题需结合外部知识与视觉证据才能回答,保证基准高质量。
章节 04
对15个参数规模2.56亿至900亿的VLMs评估显示:准确率范围24.7%~75.6%;更大模型通常表现更好但非线性;即使最大模型在复杂知识推理问题上仍有提升空间。该基准有效区分模型知识密集型推理能力。
章节 05
WikiVQABench为研究人员提供标准化评估工具,强调VLMs需具备知识整合能力(看懂图像+理解背后世界知识)。其测试能力对智能教育、博物馆导览、医疗影像分析、自动驾驶等场景至关重要。
章节 06
WikiVQABench数据集和评估代码已公开,可通过论文地址(http://arxiv.org/abs/2605.21479v1)获取,开源代码随论文提供。开放性确保社区持续改进评估方法,追踪VLMs知识推理进展。
章节 07
WikiVQABench未来可探索方向:多语言扩展(当前基于英文Wikipedia)、动态知识更新(同步最新知识库信息)、细粒度分析(模型在不同知识类型的表现)、知识注入方法(有效融入VLMs预训练/微调)。