# MM-CreativityBench：测试AI的创造性物理智能

> 新基准测试揭示多模态模型在创造性工具使用任务中的根本缺陷——它们并非缺乏生成能力，而是无法维持基于视觉的 grounded 探索。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-25T23:59:02.000Z
- 最近活动: 2026-05-27T02:28:31.147Z
- 热度: 122.5
- 关键词: 多模态模型, 创造性智能, 物理推理, affordance, 工具使用, 视觉理解, 具身智能
- 页面链接: https://www.zingnex.cn/forum/thread/mm-creativitybench-ai
- Canonical: https://www.zingnex.cn/forum/thread/mm-creativitybench-ai
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Advancing Creative Physical Intelligence in Large Multimodal Models
- 原始链接：http://arxiv.org/abs/2605.26396v1
- 来源发布时间/更新时间：2026-05-25T23:59:02Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Advancing Creative Physical Intelligence in Large Multimodal Models\n- 原始链接：http://arxiv.org/abs/2605.26396v1\n- 来源发布时间/更新时间：2026-05-25\n\n## 超越模式识别：AI需要创造性智能\n\n大型多模态模型在感知和推理任务上的进步令人瞩目。它们可以识别图像中的物体、回答关于场景的问题、甚至生成详细的描述。但这些能力是否足以应对真实世界中的创造性挑战？一项最新研究指出，当前AI系统在一种关键智能形式上存在明显短板：创造性物理智能。\n\n创造性物理智能指的是在开放环境中发现视觉 grounded 解决方案的能力——不仅仅是回答预设的问题，而是要主动识别场景中的元素如何以非显而易见但物理可行的方式被重新利用。这种能力对人类而言司空见惯：我们会用书本垫高显示器、用信用卡撬开包装盒、用发夹临时固定松动的螺丝。但对AI来说，这种"就地取材"的创造性思维仍是巨大挑战。\n\n## MM-CreativityBench： affordance 驱动的创造性基准\n\n为了系统评估这一能力，研究团队推出了 MM-CreativityBench，这是一个专注于 affordance grounded 创造性工具使用的基准测试。每个测试实例呈现一个场景图像，以及候选实体及其部件的结构化视图，使评估者能够细致地观察模型如何迭代检查场景、识别相关 affordance，并组合出基于视觉和物理的解决方案。\n\n与传统基准测试不同，MM-CreativityBench 不关注模型是否知道某个物体的标准用途，而是考察模型能否在特定情境下发现物体的非传统用途。例如，一把勺子通常用于进食，但在特定场景下它可能被用作螺丝刀、撬棍或测量工具。这种"功能固着"的突破正是创造性智能的核心。\n\n## 实验发现：Grounded 探索的缺失\n\n研究团队对当前主流多模态模型进行了全面测试，结果揭示了一个令人意外的发现：模型的失败并非源于生成能力的不足，而是无法维持基于视觉的 grounded 探索。\n\n具体而言，模型表现出三种典型失败模式。第一种是"忽视相关实体"——模型未能注意到场景中对解决问题至关重要的物体。第二种是"检查不足"——模型虽然识别出相关物体，但没有仔细检查其关键部件或属性。第三种是"属性幻觉"——模型想象出物体并不具备的属性或功能，这些幻觉完全脱离图像实际内容。\n\n这些失败模式的共同点是模型无法持续将注意力锚定在视觉证据上。当需要进行多轮推理和规划时，模型倾向于依赖内部知识而非持续观察，导致解决方案要么过于保守（只能想到标准用法），要么脱离现实（基于幻觉的不可行方案）。\n\n## Affordance Grounded 对齐方法\n\n基于这些发现，研究团队提出了一种名为"affordance grounded 对齐"的训练方法。该方法将创造性工具使用重新定义为偏好学习问题，使用直接偏好优化（DPO）技术鼓励模型优先选择在视觉证据中有明确依据的属性-affordance 推理路径，而非基于幻觉的替代方案。\n\n此外，研究团队还整合了来自 affordance 知识库的监督信号，以指导模型进行更广泛的实体探索和多轮规划。这种方法不依赖于简单的规则或模板，而是通过 preference learning 让模型自己学会区分 grounded 推理与幻觉推理。\n\n## 改进效果与持续挑战\n\n实验结果表明，经过 affordance grounded 对齐训练的模型在选择正确实体和部件方面表现出一致的改进，同时显著减少了幻觉和 grounding 相关错误。模型在创造性工具使用任务上的成功率有了明显提升。\n\n然而，改进并不意味着问题已经解决。即使在训练后，模型在复杂场景中的表现仍然远不及人类水平。特别是当场景包含多个可能的解决方案路径时，模型往往难以在探索不同选项和坚持有前景的方向之间找到平衡。\n\n另一个持续存在的挑战是跨领域泛化。模型在训练时见过的物体类别上表现较好，但面对全新类型的物体或场景时，创造性推理能力明显下降。这表明当前的训练方法可能仍过于依赖记忆和模式匹配，而非真正掌握创造性推理的底层原则。\n\n## 对具身智能的启示\n\nMM-CreativityBench 的研究对具身智能和机器人领域具有重要启示。在真实世界的机器人任务中，agent 经常需要利用手边的物体完成目标，而不是等待特定工具的出现。这种"即兴创作"能力是实用机器人系统的关键组件。\n\n研究结果提示，仅仅提升模型的生成能力或知识储备并不能解决创造性物理智能的问题。相反，关键在于培养模型的 grounded 探索能力——持续观察、假设验证、基于证据调整策略的认知循环。这种能力可能需要新的架构设计或训练范式，而非简单的规模扩展。\n\n## 结语\n\n创造性物理智能代表了人工智能从"模式识别"向"真正理解"迈进的关键一步。MM-CreativityBench 的研究清晰地表明，当前多模态模型在这一领域还有很长的路要走。它们或许能回答关于锤子的问题，但还难以像人类那样在需要时把石头当作锤子使用。\n\n这项研究不仅提供了一个新的评估基准，更重要的是指明了改进方向：不是更多的参数，不是更大的数据集，而是更好的 grounded 推理能力。只有当AI学会持续观察、验证假设、基于证据调整策略时，它们才能真正具备创造性解决实际问题的能力。