章节 01
【导读】ChronoPhyBench:检验MLLMs物理理解能力的新基准
ChronoPhyBench是一个全新的多模态物理动态推理基准测试,旨在检验多模态大模型(MLLMs)是否真正具备跨模态物理推理能力,还是仅依赖语言先验进行"幻觉式"推理。该基准通过时序物理状态预测任务,有效区分模型的真实物理理解与语言捷径依赖。实验发现当前开源MLLMs的物理推理能力仍处于初级阶段,对Physical AI和通用人工智能(AGI)的发展具有重要指导意义。
来源:arXiv 2026-06-06,链接:http://arxiv.org/abs/2606.07962v1