章节 01
【导读】SequenBench:多模态大语言模型视觉排序能力评测新基准
SequenBench是一个专门用于测试多模态大语言模型(MLLM)视觉排序能力的评测基准,包含6761张图像和7261道选择题。该基准旨在填补MLLM视觉排序能力评测的空白,采用Apache-2.0许可证开源,为研究者提供统一的评测标准和工具。
正文
SequenBench是一个包含6761张图像和7261道选择题的评测基准,专门用于测试多模态大语言模型的视觉排序能力。
章节 01
SequenBench是一个专门用于测试多模态大语言模型(MLLM)视觉排序能力的评测基准,包含6761张图像和7261道选择题。该基准旨在填补MLLM视觉排序能力评测的空白,采用Apache-2.0许可证开源,为研究者提供统一的评测标准和工具。
章节 02
随着MLLM在图像理解、视觉问答等任务上的显著进展,研究者开始关注视觉排序这一精细能力维度——要求模型识别物体并理解其相对关系,按特定属性排序。SequenBench正是为填补这一评测空白而诞生。
章节 03
SequenBench包含6761张图像和7261道选择题,是目前规模最大的视觉排序能力评测基准之一。数据集按7:3划分为训练集和测试集,以JSONL格式存储。每个样本含image(文件名)、question(排序相关问题)、options(四个排序选项)、answer(正确答案),涵盖温度、长度、厚度等多种物理量的排序任务。
章节 04
SequenBench的评测任务具有三大特点:1. 多物理量覆盖(温度、长度、厚度等);2. 视觉推理(结合图像内容与问题描述联合推理);3. 精确排序(理解物体相对大小关系)。
章节 05
项目提供完整实验代码支持:开源模型方面,支持DeepSeek-VL、InternVL3.5、InstructBLIP等10个主流模型推理;闭源模型支持Gemini-3 Pro和GPT-5的零样本/少样本推理。评估指标包括整体准确率、各物理量类别准确率、精确率(P)、召回率(R)及F1分数。
章节 06
SequenBench的发布意义重大:1. 首次系统性评测MLLM视觉排序能力;2. 为研究者提供明确优化方向;3. 推动多模态发展(视觉排序是复杂视觉推理基础);4. 提供统一评测标准与基准分数。
章节 07
项目采用Apache-2.0许可证开源,代码结构清晰:Dataset(数据集及划分)、Images(评测图像)、Code/inference(开源模型推理)、Code/close_inference(闭源模型推理)、Code/finetune(微调代码)、Code/evaluation(评估脚本)。SequenBench为MLLM视觉排序能力提供全面评测平台,将成为推动模型进步的重要基础设施,助力构建更强大的多模态AI系统。