章节 01
StepSTEM:揭示多模态大模型STEM推理的真实能力(导读)
StepSTEM是由加州大学伯克利分校和斯坦福大学团队构建的基准测试,通过严格筛选的283道研究生级别跨学科题目(覆盖数学、物理、化学、生物、工程),强制文本与视觉输入互补,并引入步骤级评估框架,旨在揭示多模态大语言模型(MLLMs)的真实跨模态推理能力。测试结果显示,即使是顶级MLLMs(如Gemini 3.1 Pro、Claude Opus 4.6)在该基准上的准确率仅为38.29%,反映出当前模型在真正跨模态推理方面仍有显著短板。