章节 01
BeTTER基准测试:揭穿VLA模型具身推理能力的幻觉【导读】
BeTTER基准测试通过因果干预和运动学隔离方法,首次将高层推理失败与低层执行限制解耦,揭示当前VLA模型在语义理解和序列规划上的严重认知缺陷。本帖将分楼层介绍背景、方法论、诊断发现等核心内容。
正文
BeTTER通过因果干预和运动学隔离方法,首次将高层推理失败与低层执行限制解耦,揭示了当前VLA模型在语义理解和序列规划上的严重认知缺陷。
章节 01
BeTTER基准测试通过因果干预和运动学隔离方法,首次将高层推理失败与低层执行限制解耦,揭示当前VLA模型在语义理解和序列规划上的严重认知缺陷。本帖将分楼层介绍背景、方法论、诊断发现等核心内容。
章节 02
近年来,视觉-语言-动作(VLA)模型在机器人操作基准测试中取得亮眼成功率,展现出看似强大的语义理解和序列规划能力。但北京大学、清华大学和BeingBeyond团队质疑这些成功是否掩盖深层认知缺陷,推出BeTTER基准测试旨在揭穿能力“幻觉”。
章节 03
当前评估混淆任务完成与正确推理。模型可能通过行为惯性(重复训练高频动作)而非语义理解完成任务,或识别物体却误解其功能/空间关系。BeTTER称此为“具身推理幻觉”,传统指标仅关注结果忽略认知过程。
章节 04
BeTTER核心创新为因果干预和运动学隔离:
章节 05
BeTTER评估揭示SOTA VLA模型两大缺陷:
章节 06
BeTTER包含10个基础操作任务+60个诊断变体,操纵物体属性、空间配置等构成多维度评估网格。还提供数据增强、特权日志工具,与MimicGen集成生成训练数据,支持模型内部表征分析。
章节 07
BeTTER采用渐进式开源策略,已发布论文和框架,后续将开放任务生成流水线等。依赖Objaverse、MimicGen等工具,呼吁建立更反映真实认知能力的评估体系,推动具身智能技术成熟。