# BloomBench：基于布鲁姆认知分类的双语视觉语言模型评测基准

> 卡塔尔计算研究所推出的BloomBench是一个双语（英语-阿拉伯语）多模态评测基准，基于布鲁姆认知分类法从六个认知层次系统评估视觉语言模型的推理能力，揭示了当前VLM在跨语言多模态推理中的认知不对称性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-06T18:45:43.000Z
- 最近活动: 2026-06-06T18:50:45.013Z
- 热度: 152.9
- 关键词: 视觉语言模型, 评测基准, 布鲁姆认知分类法, 多模态, 双语评测, 阿拉伯语, 认知推理, 机器学习, 人工智能
- 页面链接: https://www.zingnex.cn/forum/thread/bloombench
- Canonical: https://www.zingnex.cn/forum/thread/bloombench
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：qcri
- 来源平台：github
- 原始标题：Almieyar-Oryx-BloomBench
- 原始链接：https://github.com/qcri/Almieyar-Oryx-BloomBench
- 来源发布时间/更新时间：2026-06-06T18:45:43Z

## 原作者与来源\n\n- **原作者/维护者：** Qatar Computing Research Institute (QCRI)\n- **来源平台：** GitHub\n- **原始标题：** Almieyar-Oryx-BloomBench\n- **原始链接：** https://github.com/qcri/Almieyar-Oryx-BloomBench\n- **论文链接：** https://arxiv.org/abs/2606.05531\n- **数据集：** https://huggingface.co/datasets/QCRI/BloomBench\n- **发布时间：** 2026年6月6日\n\n## 背景与动机\n\n当前视觉语言模型（Vision-Language Models, VLMs）的评测基准大多侧重于孤立任务或总体准确率，缺乏对模型认知能力的系统性诊断。大多数基准测试无法回答一个关键问题：模型在不同认知层次上的表现如何？它们是在真正理解内容，还是仅仅在模式匹配？\n\n为了解决这一问题，卡塔尔计算研究所（QCRI）推出了BloomBench——一个基于布鲁姆认知分类法（Bloom's Taxonomy）的双语多模态评测基准。该基准不仅关注模型的最终准确率，更深入分析模型在记忆、理解、应用、分析、评价和创造这六个认知层次上的能力分布。\n\n## 布鲁姆认知分类法在BloomBench中的应用\n\nBloomBench将布鲁姆修订版分类法的六个层次转化为具体的视觉问答任务：\n\n**1. 记忆（Remember）**：识别和回忆图像中的物体、属性、活动、符号和文本内容。这一层次测试模型的基础视觉感知能力。\n\n**2. 理解（Understand）**：组合理解和关系理解，包括语义理解、情感理解和释义式理解。这一层次考察模型是否能够真正"理解"图像内容的含义。\n\n**3. 应用（Apply）**：在新视觉情境中运用知识或规则，测试基本的多模态逻辑能力（如否定、结构推理）。\n\n**4. 分析（Analyze）**：分解和推理能力，包括逻辑/科学推理、上下文理解、图表分析和异常属性识别。\n\n**5. 评价（Evaluate）**：判断能力，包括一致性/幻觉检查、安全性评估和质量评估。\n\n**6. 创造（Create）**：以多选题形式呈现的判别式创造力——从选项中选择最佳综合结果（如叙事或结构化约束）。\n\n## 数据集规模与质量控制\n\nBloomBench包含7,747个双语图像-问题-答案样本，涵盖106种不同的任务类型（分类法叶子节点），横跨全部六个布鲁姆层次：\n\n- **记忆**：2,948个样本\n- **理解**：1,592个样本\n- **应用**：499个样本\n- **分析**：1,431个样本\n- **评价**：592个样本\n- **创造**：685个样本\n\n质量控制采用了混合验证方法：在分层抽样的969个样本（约占总数据集的1/8）上，使用Gemini 3 Pro进行审核，仅标记出15个问题，经人工验证全部确认为错误——估计质量率达到98.45%。\n\n## 数据生成流程\n\nBloomBench的数据生成流程结合了Gemini 2.5 Pro的场景构思和认知导向的视觉问答生成，配合指令微调的多选题转换器和阿拉伯语翻译器。整个流程经过混合LLM-as-judge + 人工仲裁阶段（使用Gemini 3 Pro）验证，确保数据质量。\n\n所有样本均为四选一的多选题形式，干扰项经过专业设计（包括一个刻意的"陷阱"干扰项），图像来源于网络采集，然后翻译成现代标准阿拉伯语，并在翻译过程中保持认知和语义对齐。\n\n## 评测协议与主要发现\n\nBloomBench支持两种互补的评分模式：\n\n**基于正则表达式的答案提取（RAE）**：解析自由形式输出中的选项选择（如A-D），反映典型的用户-facing使用场景。格式无效的答案被分配为错误选项，以考虑灾难性的指令遵循失败。\n\n**基于似然度的评分（LBS）**：通过长度归一化的条件对数概率为每个选项打分，减少对格式的依赖并揭示校准风格的行为。\n\n主要评测结果揭示了当前VLM的认知不对称性：\n\n- **Gemma 4 31B**在RAE准确率上达到最先进水平（英语89.8% / 阿拉伯语87.6%），超越了Qwen2.5-VL，但在LBS下表现明显挣扎。\n\n- **Qwen2.5-VL-7B**展现出最强的内部一致性（英语RAE 0.869 → LBS 0.654），而Gemma 3系列在LBS下表现出逆缩放趋势——Gemma 3 27B的RAE最高（0.883），但LBS下降最陡峭（0.336）。\n\n- **阿拉伯语全面落后于英语**，Gemma 3系列显示出最小的跨语言差距。受控的西班牙语消融实验证实，阿拉伯语LBS差距是tokenization生育率和较弱的非英语概率先验的复合效应。\n\n## 实际意义与启示\n\nBloomBench的发现对视觉语言模型的开发和应用具有重要启示：\n\n1. **认知能力分布不均**：当前VLM在判别性技能（如理解和评价的某些方面）上表现强劲，但在事实回忆、程序应用和创造性综合方面明显较弱，尤其是在更严格的评测协议下。\n\n2. **跨语言差距持续存在**：阿拉伯语-英语差距揭示了当前跨语言多模态推理的局限性，这对多语言应用场景提出了挑战。\n\n3. **评测方法的重要性**：RAE和LBS在不同模型间可能存在显著差异，建议同时报告两种指标以获得更全面的评估。\n\n## 结语\n\nBloomBench为视觉语言模型的评测提供了一个认知导向的框架，不仅关注"模型有多准确"，更关注"模型在哪些认知层次上表现如何"。这种细粒度的诊断能力对于理解VLM的优势和局限、指导未来的模型改进方向具有重要价值。随着多模态AI系统的日益普及，像BloomBench这样的认知评测基准将在确保AI系统的可靠性和安全性方面发挥越来越重要的作用。