Zing 论坛

正文

BloomBench:基于布鲁姆认知分类的双语视觉语言模型评测基准

卡塔尔计算研究所推出的BloomBench是一个双语(英语-阿拉伯语)多模态评测基准,基于布鲁姆认知分类法从六个认知层次系统评估视觉语言模型的推理能力,揭示了当前VLM在跨语言多模态推理中的认知不对称性。

视觉语言模型评测基准布鲁姆认知分类法多模态双语评测阿拉伯语认知推理机器学习人工智能
发布时间 2026/06/07 02:45最近活动 2026/06/07 02:50预计阅读 3 分钟
BloomBench:基于布鲁姆认知分类的双语视觉语言模型评测基准
1

章节 01

【导读】BloomBench:基于布鲁姆认知分类的双语视觉语言模型评测基准

卡塔尔计算研究所(QCRI)于2026年6月6日推出BloomBench,这是一个基于布鲁姆认知分类法的双语(英语-阿拉伯语)多模态评测基准,旨在系统评估视觉语言模型(VLM)在记忆、理解、应用、分析、评价、创造六个认知层次的推理能力,揭示当前VLM在跨语言多模态推理中的认知不对称性。

来源信息:

2

章节 02

背景:当前VLM评测缺乏认知能力系统性诊断

当前视觉语言模型(VLMs)的评测基准大多侧重于孤立任务或总体准确率,缺乏对模型认知能力的系统性诊断。大多数基准测试无法回答关键问题:模型在不同认知层次上的表现如何?它们是真正理解内容,还是仅模式匹配?

为解决此问题,QCRI推出BloomBench,深入分析模型在六个认知层次的能力分布,而非仅关注最终准确率。

3

章节 03

方法:布鲁姆认知层次转化与数据生成流程

BloomBench将布鲁姆修订版分类法的六个层次转化为具体视觉问答任务:

  1. 记忆:识别/回忆图像中的物体、属性等基础感知能力;
  2. 理解:组合/关系理解(语义、情感等);
  3. 应用:新情境中运用知识/规则(如否定推理);
  4. 分析:分解与推理(逻辑、上下文、图表分析等);
  5. 评价:判断能力(一致性检查、安全性评估等);
  6. 创造:判别式创造力(从选项选最佳综合结果)。

数据生成流程:结合Gemini 2.5 Pro场景构思与认知导向问答生成,配合多选题转换器和阿拉伯语翻译器,经LLM-as-judge+人工仲裁验证质量。所有样本为四选一多选题,含陷阱干扰项,图像网络采集并确保翻译语义对齐。

4

章节 04

证据:数据集规模与质量控制

BloomBench含7747个双语图像-问题-答案样本,覆盖106种任务类型及全部六个认知层次:

  • 记忆:2948样本
  • 理解:1592样本
  • 应用:499样本
  • 分析:1431样本
  • 评价:592样本
  • 创造:685样本

质量控制:分层抽样969样本(约1/8)用Gemini 3 Pro审核,仅15个错误,人工验证后质量率达98.45%。

5

章节 05

发现:VLM认知不对称性与跨语言差距

BloomBench支持两种评分模式:

  1. RAE(正则表达式答案提取):解析自由输出选项,反映用户场景;
  2. LBS(似然度评分):长度归一化条件对数概率打分,减少格式依赖。

主要发现:

  • Gemma4 31B在RAE准确率领先(英语89.8%/阿拉伯语87.6%),但LBS表现挣扎;
  • Qwen2.5-VL-7B内部一致性最强;Gemma3系列LBS逆缩放(27B RAE最高但LBS下降最陡);
  • 阿拉伯语全面落后英语,Gemma3系列跨语言差距最小;西班牙语消融实验证实差距源于tokenization生育率和非英语概率先验。
6

章节 06

意义:对VLM开发的启示与建议

BloomBench发现对VLM开发的启示:

  1. 认知能力分布不均:判别性技能(如理解、评价)强,但事实回忆、程序应用、创造性综合弱;
  2. 跨语言差距持续:阿拉伯语-英语差距挑战多语言应用;
  3. 评测方法重要:建议同时报告RAE和LBS以全面评估。
7

章节 07

结语:认知导向评测的价值

BloomBench提供认知导向的VLM评测框架,不仅关注“准确率”,更关注“各认知层次表现”。这种细粒度诊断有助于理解VLM优势局限,指导模型改进。随着多模态AI普及,此类认知评测基准将在确保AI可靠性和安全性中发挥重要作用。