# StepSTEM：揭示多模态大模型STEM推理的真实能力

> StepSTEM通过严格筛选的283道研究生级别跨学科题目，强制文本与视觉输入互补，并引入步骤级评估框架，揭示当前MLLMs在真正跨模态推理上仅有38%准确率的现实。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-21T17:17:37.000Z
- 最近活动: 2026-04-22T04:19:33.001Z
- 热度: 138.0
- 关键词: 多模态推理, STEM, 基准测试, 步骤级评估, 跨模态理解, MLLMs, 模型评估
- 页面链接: https://www.zingnex.cn/forum/thread/stepstem-stem
- Canonical: https://www.zingnex.cn/forum/thread/stepstem-stem
- Markdown 来源: ingested_event

---

## 现状：多模态推理评估的盲区\n\n多模态大语言模型（MLLMs）在各类任务中展现出令人瞩目的表现，但在评估其真实推理能力时，我们面临一个根本性问题：**现有基准测试存在严重缺陷**。\n\nSTEM（科学、技术、工程、数学）领域是检验推理能力的理想试金石，因为答案具有高度可验证性。然而，当前主流基准存在两大问题：\n\n1. **模态冗余陷阱**：许多题目允许模型仅通过文本或仅通过图像就能得出正确答案，无需真正的跨模态理解\n2. **结果导向偏差**：评估只关注最终答案的正确性，完全忽视了推理过程的质量\n\n这意味着，一个模型可能在基准测试中取得高分，却从未真正进行过跨模态推理。这种"作弊"式的成功让研究者和开发者对MLLMs的真实能力产生了误判。\n\n## StepSTEM的设计理念：强制跨模态互补\n\nStepSTEM的创建团队来自加州大学伯克利分校和斯坦福大学，他们提出了一个严格的筛选流程来构建真正考验跨模态推理的基准。\n\n核心设计原则包括：\n\n### 严格的模态互补性\n\n每一道入选题目都必须满足：仅依靠文本或仅依靠图像都无法正确解答。例如，一道几何证明题可能提供图形但缺少关键角度标注的文字说明，或者提供实验数据表格但需要结合示意图才能理解实验装置。\n\n### 研究生级别的难度\n\nStepSTEM包含283道题目，覆盖数学、物理、化学、生物和工程五个学科。这些题目来自大学课程作业、研究生入学考试和专业资格认证考试，确保难度足以挑战当前最先进的模型。\n\n### 多参考解的动态对齐\n\n每道题都配有多个经过人工验证的参考解答。评估时使用动态规划算法，将模型生成的推理步骤与所有参考解进行对齐，计算步骤级别的匹配度，而非简单的字符串匹配。\n\n## 步骤级评估框架：看清推理的每一步\n\nStepSTEM的另一大创新是提出了通用的步骤级评估框架，支持两种推理模式：\n\n### 纯文本思维链评估\n\n对于传统的Chain-of-Thought推理，框架将模型的推理文本分割为逻辑步骤，每个步骤标记为\"正确\"、\"部分正确\"或\"错误\"。这种细粒度标注揭示了模型在推理链条中的薄弱环节。\n\n### 图文交错推理评估\n\n更具挑战性的是对图文交错推理的评估。模型可能在推理过程中生成中间图像（如手绘示意图）或引用输入图像的特定区域。StepSTEM的评估框架能够：\n\n- 识别模型引用的图像区域是否与推理相关\n- 判断生成的中间图像是否有助于问题解决\n- 评估文本描述与视觉内容的一致性\n\n这种评估方式首次让研究者能够量化MLLMs在\"看图思考\"和\"画图解释\"方面的真实能力。\n\n## 实验结果：38%准确率背后的真相\n\n研究团队对包括GPT-4V、Gemini 3.1 Pro、Claude Opus 4.6在内的主流MLLMs进行了全面测试。结果令人警醒：\n\n### 整体表现\n\n即使是表现最好的Gemini 3.1 Pro和Claude Opus 4.6，在StepSTEM上的准确率也仅为38.29%。这意味着在超过60%的题目上，这些顶级模型都未能给出正确答案。\n\n### 跨学科差异\n\n不同学科的表现差异显著：\n\n- **数学**：相对表现最好，但仍远低于人类研究生水平\n- **物理**：涉及力学和电磁学的题目对模型极具挑战性\n- **化学**：分子结构理解和反应机理推理是主要难点\n- **生物**：复杂的生物通路和实验设计题表现最差\n- **工程**：需要综合多领域知识的题目几乎全军覆没\n\n### 推理过程分析\n\n步骤级评估揭示了更深层的问题：\n\n1. **视觉依赖不足**：即使提供了图像，模型仍倾向于仅基于文本进行推理\n2. **幻觉频发**：在约25%的错误答案中，模型生成了与图像内容不符的陈述\n3. **推理链断裂**：平均每个错误答案包含2.3个逻辑断裂点\n\n## 对研究社区的启示\n\nStepSTEM的发布对多模态AI研究具有多重意义：\n\n### 重新校准能力预期\n\n38%的准确率提醒我们，当前MLLMs距离真正的跨模态推理还有很长的路要走。研究者和开发者需要更务实地评估模型能力，避免过度乐观。\n\n### 指导模型改进方向\n\n步骤级评估数据为模型改进提供了明确方向：\n\n- 增强视觉 grounding 能力，让模型真正\"看懂\"图像\n- 改进多模态注意力机制，实现更紧密的图文交互\n- 引入显式的推理验证步骤，减少幻觉生成\n\n### 推动评估标准升级\n\nStepSTEM的严格筛选流程和细粒度评估方法为未来的基准测试设定了新标准。未来的评估应当：\n\n- 强制模态互补，杜绝\"捷径\"\n- 关注推理过程，而非仅看结果\n- 提供多维度反馈，帮助定位问题\n\n## 局限与未来工作\n\nStepSTEM也存在一些局限性：\n\n1. **规模限制**：283道题目的规模相对较小，可能无法覆盖所有STEM子领域\n2. **语言局限**：当前版本仅支持英文，多语言扩展有待进行\n3. **动态性不足**：静态数据集无法测试模型在交互式推理中的表现\n\n研究团队计划通过众包方式持续扩充题目库，并探索将StepSTEM与交互式环境结合，测试模型在\"可以提问\"场景下的推理能力。\n\n## 结语\n\nStepSTEM像一面镜子，照出了当前多模态大模型在真正跨模态推理上的短板。38%的准确率不是一个令人沮丧的数字，而是一个清晰的起点。它告诉我们：在通往通用人工智能的道路上，让模型真正\"看懂\"并\"想明白\"，仍然是亟待攻克的核心挑战。对于研究者和开发者而言，StepSTEM提供了一个可靠的评估工具，帮助我们在正确的方向上持续迭代。