Zing 论坛

正文

WikiVQABench:知识驱动的视觉问答新基准,测试多模态模型的外部知识推理能力

WikiVQABench是一个基于Wikipedia和Wikidata构建的知识驱动型视觉问答基准测试,通过结合图像、文章标题和结构化知识,评估视觉语言模型在需要外部知识推理的场景下的表现。

视觉问答VQA知识驱动多模态模型视觉语言模型WikipediaWikidata基准测试知识推理机器学习
发布时间 2026/05/21 01:58最近活动 2026/05/21 11:17预计阅读 2 分钟
WikiVQABench:知识驱动的视觉问答新基准,测试多模态模型的外部知识推理能力
1

章节 01

【导读】WikiVQABench:知识驱动的视觉问答新基准,测试多模态模型外部知识推理能力

WikiVQABench是基于Wikipedia和Wikidata构建的知识驱动型视觉问答(VQA)基准测试,旨在评估视觉语言模型(VLMs)在需要外部知识推理场景下的表现。该基准填补了传统VQA基准忽视知识密集型推理需求的空白,通过整合图像、文章标题和结构化知识,为多模态模型的能力评估提供更全面视角。

2

章节 02

背景:传统VQA基准的局限性与知识推理需求

传统VQA基准主要关注感知型任务(可通过图像内容直接回答),但现实场景中许多问题需外部知识才能解答(如埃菲尔铁塔所属城市需地理知识)。现有VQA基准忽视此类知识密集型推理需求,导致VLMs在真实应用中的表现被高估。

3

章节 03

构建方法:整合多源数据与人工审核的高质量基准

WikiVQABench整合三类数据源:Wikipedia图像、文章标题、Wikidata结构化知识。通过LLM自动生成图像-问题-答案组合,再经人工审核筛选,确保事实准确、视觉-文本一致、问题需结合外部知识与视觉证据才能回答,保证基准高质量。

4

章节 04

评估结果:模型性能差异显著,知识推理仍存挑战

对15个参数规模2.56亿至900亿的VLMs评估显示:准确率范围24.7%~75.6%;更大模型通常表现更好但非线性;即使最大模型在复杂知识推理问题上仍有提升空间。该基准有效区分模型知识密集型推理能力。

5

章节 05

技术意义与应用价值:推动多模态AI实用化

WikiVQABench为研究人员提供标准化评估工具,强调VLMs需具备知识整合能力(看懂图像+理解背后世界知识)。其测试能力对智能教育、博物馆导览、医疗影像分析、自动驾驶等场景至关重要。

7

章节 07

未来展望:扩展与优化方向

WikiVQABench未来可探索方向:多语言扩展(当前基于英文Wikipedia)、动态知识更新(同步最新知识库信息)、细粒度分析(模型在不同知识类型的表现)、知识注入方法(有效融入VLMs预训练/微调)。