Zing 论坛

正文

StepSTEM:揭示多模态大模型STEM推理的真实能力

StepSTEM通过严格筛选的283道研究生级别跨学科题目,强制文本与视觉输入互补,并引入步骤级评估框架,揭示当前MLLMs在真正跨模态推理上仅有38%准确率的现实。

多模态推理STEM基准测试步骤级评估跨模态理解MLLMs模型评估
发布时间 2026/04/22 01:17最近活动 2026/04/22 12:19预计阅读 2 分钟
StepSTEM:揭示多模态大模型STEM推理的真实能力
1

章节 01

StepSTEM:揭示多模态大模型STEM推理的真实能力(导读)

StepSTEM是由加州大学伯克利分校和斯坦福大学团队构建的基准测试,通过严格筛选的283道研究生级别跨学科题目(覆盖数学、物理、化学、生物、工程),强制文本与视觉输入互补,并引入步骤级评估框架,旨在揭示多模态大语言模型(MLLMs)的真实跨模态推理能力。测试结果显示,即使是顶级MLLMs(如Gemini 3.1 Pro、Claude Opus 4.6)在该基准上的准确率仅为38.29%,反映出当前模型在真正跨模态推理方面仍有显著短板。

2

章节 02

背景:现有多模态推理评估的两大盲区

当前MLLMs在各类任务中表现亮眼,但现有STEM领域评估存在严重缺陷:1. 模态冗余陷阱:许多题目允许仅通过文本或图像单模态解答,无需真正跨模态理解;2. 结果导向偏差:仅关注最终答案正确与否,忽视推理过程质量。这导致模型可能"作弊"取得高分,误导对其真实能力的判断。

3

章节 03

方法:StepSTEM的核心设计原则

StepSTEM的设计围绕三个核心原则:1. 严格模态互补性:每道题需文本和图像结合才能解答,单模态无法正确完成;2. 研究生级别难度:题目来自大学课程作业、研究生考试及专业认证,覆盖五大学科;3. 多参考解动态对齐:每道题配有人工验证的多个参考解,评估时用动态规划算法对齐模型推理步骤,计算步骤匹配度而非简单字符串匹配。

4

章节 04

方法:步骤级评估框架的创新点

StepSTEM提出通用步骤级评估框架,支持两种推理模式:1. 纯文本思维链评估:将推理文本分割为逻辑步骤,标记正确/部分正确/错误,揭示薄弱环节;2. 图文交错推理评估:识别模型引用图像区域的相关性、生成中间图像的有效性、文本与视觉内容的一致性,首次量化MLLMs"看图思考"和"画图解释"的能力。

5

章节 05

证据:实验结果揭示的模型短板

对GPT-4V、Gemini 3.1 Pro、Claude Opus 4.6等主流模型测试发现:1. 整体表现:顶级模型准确率仅38.29%;2. 跨学科差异:数学相对最好,生物和工程表现最差;3. 推理过程问题:视觉依赖不足(倾向仅用文本)、幻觉频发(25%错误答案含与图像不符陈述)、推理链断裂(平均每个错误答案有2.3个逻辑断点)。

6

章节 06

启示:对多模态AI研究的指导意义

StepSTEM的结果为研究社区带来三点启示:1. 重新校准能力预期:当前MLLMs距离真正跨模态推理仍有长路;2. 指导模型改进:需增强视觉grounding能力、改进多模态注意力机制、引入推理验证步骤减少幻觉;3. 推动评估标准升级:未来评估应强制模态互补、关注推理过程、提供多维度反馈。

7

章节 07

局限与未来工作

StepSTEM存在局限:1. 规模较小(283题),覆盖子领域有限;2. 仅支持英文;3. 静态数据集无法测试交互式推理。团队计划通过众包扩充题目库,并探索结合交互式环境,测试模型在可提问场景下的推理能力。