章节 01
OMIBench:多图奥林匹克级推理的新基准测试导读
OMIBench是首个专门针对多图奥林匹克级推理的基准测试,覆盖生物、化学、数学、物理四大领域,包含超1000道题目。即使是最强模型Gemini-3-Pro,准确率也仅约50%,揭示当前大视觉语言模型(LVLMs)在跨图像推理方面的重大局限。该基准由多所高校联合开发,填补了现有多模态奥林匹克基准单图设置的空白。
正文
OMIBench是首个专门针对多图奥林匹克级推理的基准测试,覆盖生物、化学、数学、物理四大领域,包含超过1000道题目。即使是Gemini-3-Pro等最强模型,准确率也仅约50%,揭示了当前大视觉语言模型在跨图像推理方面的重大局限。
章节 01
OMIBench是首个专门针对多图奥林匹克级推理的基准测试,覆盖生物、化学、数学、物理四大领域,包含超1000道题目。即使是最强模型Gemini-3-Pro,准确率也仅约50%,揭示当前大视觉语言模型(LVLMs)在跨图像推理方面的重大局限。该基准由多所高校联合开发,填补了现有多模态奥林匹克基准单图设置的空白。
章节 02
近年来,LVLMs在奥林匹克级推理任务上进展显著,Chain-of-Thought(CoT)提示技术推动了视觉线索与文本信息的融合。但现有多模态奥林匹克基准大多局限于单图问题,而真实场景中问题常依赖多个关联图表,需跨图像、跨模态推理,这是当前的核心挑战。
章节 03
OMIBench由哈工大、中南大学等多机构联合开发,是首个多图奥林匹克推理基准。包含超1000道题,平均每题3.07张图,配手动标注推理路径和答案。核心特点:1.多图信息整合要求;2.手动推理路径标注;3.精确+语义双重评估;4.覆盖四大科学领域。
章节 04
对最先进LVLMs评估发现:Gemini-3-Pro准确率约50%,所有模型准确率未超51%;相比单图基准性能下降15%,比现有多图基准下降超20%。错误分析识别三类失败模式:视觉感知失败、跨图像关联失败、跨模态逻辑整合失败。
章节 05
评估多种提升策略:Long CoT有有限增益;测试时扩展(并行/顺序)一致但有限改进;ICL改善表现但收益递减;Think-with-Image几乎无收益甚至降性能;参数扩展收效甚微。说明需架构创新而非单纯规模扩张。
章节 06
OMIBench的意义:1.提供标准化多图推理评估工具;2.提示当前技术路径不足,需新架构/训练范式;3.手动推理路径助力可解释性研究。资源:论文(arXiv:2604.20806)、数据集(HuggingFace)、代码仓库(GitHub)及非官方实现脚手架。
章节 07
OMIBench标志多模态推理评估新阶段,揭示LVLMs在多图复杂推理中的局限。对开发者而言,既是挑战也是改进目标,为下一代多模态架构设计指明方向,期待社区突破多图推理能力。