Zing 论坛

正文

SequenBench:多模态大语言模型视觉排序能力评测新基准

SequenBench是一个包含6761张图像和7261道选择题的评测基准,专门用于测试多模态大语言模型的视觉排序能力。

多模态大语言模型视觉排序基准测试MLLM评测数据集Apache-2.0
发布时间 2026/04/10 14:54最近活动 2026/04/10 15:15预计阅读 2 分钟
SequenBench:多模态大语言模型视觉排序能力评测新基准
1

章节 01

【导读】SequenBench:多模态大语言模型视觉排序能力评测新基准

SequenBench是一个专门用于测试多模态大语言模型(MLLM)视觉排序能力的评测基准,包含6761张图像和7261道选择题。该基准旨在填补MLLM视觉排序能力评测的空白,采用Apache-2.0许可证开源,为研究者提供统一的评测标准和工具。

2

章节 02

背景与动机

随着MLLM在图像理解、视觉问答等任务上的显著进展,研究者开始关注视觉排序这一精细能力维度——要求模型识别物体并理解其相对关系,按特定属性排序。SequenBench正是为填补这一评测空白而诞生。

3

章节 03

数据集概览

SequenBench包含6761张图像和7261道选择题,是目前规模最大的视觉排序能力评测基准之一。数据集按7:3划分为训练集和测试集,以JSONL格式存储。每个样本含image(文件名)、question(排序相关问题)、options(四个排序选项)、answer(正确答案),涵盖温度、长度、厚度等多种物理量的排序任务。

4

章节 04

评测维度与任务类型

SequenBench的评测任务具有三大特点:1. 多物理量覆盖(温度、长度、厚度等);2. 视觉推理(结合图像内容与问题描述联合推理);3. 精确排序(理解物体相对大小关系)。

5

章节 05

实验与评估方法

项目提供完整实验代码支持:开源模型方面,支持DeepSeek-VL、InternVL3.5、InstructBLIP等10个主流模型推理;闭源模型支持Gemini-3 Pro和GPT-5的零样本/少样本推理。评估指标包括整体准确率、各物理量类别准确率、精确率(P)、召回率(R)及F1分数。

6

章节 06

实际意义与应用价值

SequenBench的发布意义重大:1. 首次系统性评测MLLM视觉排序能力;2. 为研究者提供明确优化方向;3. 推动多模态发展(视觉排序是复杂视觉推理基础);4. 提供统一评测标准与基准分数。

7

章节 07

技术实现与结语

项目采用Apache-2.0许可证开源,代码结构清晰:Dataset(数据集及划分)、Images(评测图像)、Code/inference(开源模型推理)、Code/close_inference(闭源模型推理)、Code/finetune(微调代码)、Code/evaluation(评估脚本)。SequenBench为MLLM视觉排序能力提供全面评测平台,将成为推动模型进步的重要基础设施,助力构建更强大的多模态AI系统。