正文

SequenBench：多模态大语言模型视觉排序能力评测新基准

SequenBench是一个包含6761张图像和7261道选择题的评测基准，专门用于测试多模态大语言模型的视觉排序能力。

多模态大语言模型视觉排序基准测试MLLM评测数据集Apache-2.0

发布时间 2026/04/10 14:54最近活动 2026/04/10 15:15预计阅读 2 分钟

章节 01

【导读】SequenBench：多模态大语言模型视觉排序能力评测新基准

SequenBench是一个专门用于测试多模态大语言模型（MLLM）视觉排序能力的评测基准，包含6761张图像和7261道选择题。该基准旨在填补MLLM视觉排序能力评测的空白，采用Apache-2.0许可证开源，为研究者提供统一的评测标准和工具。

章节 02

背景与动机

随着MLLM在图像理解、视觉问答等任务上的显著进展，研究者开始关注视觉排序这一精细能力维度——要求模型识别物体并理解其相对关系，按特定属性排序。SequenBench正是为填补这一评测空白而诞生。

章节 03

数据集概览

SequenBench包含6761张图像和7261道选择题，是目前规模最大的视觉排序能力评测基准之一。数据集按7:3划分为训练集和测试集，以JSONL格式存储。每个样本含image（文件名）、question（排序相关问题）、options（四个排序选项）、answer（正确答案），涵盖温度、长度、厚度等多种物理量的排序任务。

章节 04

评测维度与任务类型

SequenBench的评测任务具有三大特点：1. 多物理量覆盖（温度、长度、厚度等）；2. 视觉推理（结合图像内容与问题描述联合推理）；3. 精确排序（理解物体相对大小关系）。

章节 05

实验与评估方法

项目提供完整实验代码支持：开源模型方面，支持DeepSeek-VL、InternVL3.5、InstructBLIP等10个主流模型推理；闭源模型支持Gemini-3 Pro和GPT-5的零样本/少样本推理。评估指标包括整体准确率、各物理量类别准确率、精确率（P）、召回率（R）及F1分数。

章节 06

实际意义与应用价值

SequenBench的发布意义重大：1. 首次系统性评测MLLM视觉排序能力；2. 为研究者提供明确优化方向；3. 推动多模态发展（视觉排序是复杂视觉推理基础）；4. 提供统一评测标准与基准分数。

章节 07

技术实现与结语

项目采用Apache-2.0许可证开源，代码结构清晰：Dataset（数据集及划分）、Images（评测图像）、Code/inference（开源模型推理）、Code/close_inference（闭源模型推理）、Code/finetune（微调代码）、Code/evaluation（评估脚本）。SequenBench为MLLM视觉排序能力提供全面评测平台，将成为推动模型进步的重要基础设施，助力构建更强大的多模态AI系统。