正文

StepSTEM：揭示多模态大模型STEM推理的真实能力

StepSTEM通过严格筛选的283道研究生级别跨学科题目，强制文本与视觉输入互补，并引入步骤级评估框架，揭示当前MLLMs在真正跨模态推理上仅有38%准确率的现实。

多模态推理STEM基准测试步骤级评估跨模态理解MLLMs模型评估

发布时间 2026/04/22 01:17最近活动 2026/04/22 12:19预计阅读 2 分钟

章节 01

StepSTEM：揭示多模态大模型STEM推理的真实能力（导读）

StepSTEM是由加州大学伯克利分校和斯坦福大学团队构建的基准测试，通过严格筛选的283道研究生级别跨学科题目（覆盖数学、物理、化学、生物、工程），强制文本与视觉输入互补，并引入步骤级评估框架，旨在揭示多模态大语言模型（MLLMs）的真实跨模态推理能力。测试结果显示，即使是顶级MLLMs（如Gemini 3.1 Pro、Claude Opus 4.6）在该基准上的准确率仅为38.29%，反映出当前模型在真正跨模态推理方面仍有显著短板。

章节 02

背景：现有多模态推理评估的两大盲区

当前MLLMs在各类任务中表现亮眼，但现有STEM领域评估存在严重缺陷：1. 模态冗余陷阱：许多题目允许仅通过文本或图像单模态解答，无需真正跨模态理解；2. 结果导向偏差：仅关注最终答案正确与否，忽视推理过程质量。这导致模型可能"作弊"取得高分，误导对其真实能力的判断。

章节 03

方法：StepSTEM的核心设计原则

StepSTEM的设计围绕三个核心原则：1. 严格模态互补性：每道题需文本和图像结合才能解答，单模态无法正确完成；2. 研究生级别难度：题目来自大学课程作业、研究生考试及专业认证，覆盖五大学科；3. 多参考解动态对齐：每道题配有人工验证的多个参考解，评估时用动态规划算法对齐模型推理步骤，计算步骤匹配度而非简单字符串匹配。

章节 04

方法：步骤级评估框架的创新点

StepSTEM提出通用步骤级评估框架，支持两种推理模式：1. 纯文本思维链评估：将推理文本分割为逻辑步骤，标记正确/部分正确/错误，揭示薄弱环节；2. 图文交错推理评估：识别模型引用图像区域的相关性、生成中间图像的有效性、文本与视觉内容的一致性，首次量化MLLMs"看图思考"和"画图解释"的能力。

章节 05

证据：实验结果揭示的模型短板

对GPT-4V、Gemini 3.1 Pro、Claude Opus 4.6等主流模型测试发现：1. 整体表现：顶级模型准确率仅38.29%；2. 跨学科差异：数学相对最好，生物和工程表现最差；3. 推理过程问题：视觉依赖不足（倾向仅用文本）、幻觉频发（25%错误答案含与图像不符陈述）、推理链断裂（平均每个错误答案有2.3个逻辑断点）。

章节 06