Zing 论坛

正文

BeTTER基准测试:揭穿VLA模型具身推理能力的幻觉

BeTTER通过因果干预和运动学隔离方法,首次将高层推理失败与低层执行限制解耦,揭示了当前VLA模型在语义理解和序列规划上的严重认知缺陷。

VLA模型具身智能基准测试因果干预机器人推理视觉语言模型行为惯性语义理解
发布时间 2026/04/21 14:11最近活动 2026/04/21 14:20预计阅读 2 分钟
BeTTER基准测试:揭穿VLA模型具身推理能力的幻觉
1

章节 01

BeTTER基准测试:揭穿VLA模型具身推理能力的幻觉【导读】

BeTTER基准测试通过因果干预和运动学隔离方法,首次将高层推理失败与低层执行限制解耦,揭示当前VLA模型在语义理解和序列规划上的严重认知缺陷。本帖将分楼层介绍背景、方法论、诊断发现等核心内容。

2

章节 02

背景:VLA模型的辉煌与隐忧

近年来,视觉-语言-动作(VLA)模型在机器人操作基准测试中取得亮眼成功率,展现出看似强大的语义理解和序列规划能力。但北京大学、清华大学和BeingBeyond团队质疑这些成功是否掩盖深层认知缺陷,推出BeTTER基准测试旨在揭穿能力“幻觉”。

3

章节 03

幻觉的本质:执行成功≠推理正确

当前评估混淆任务完成与正确推理。模型可能通过行为惯性(重复训练高频动作)而非语义理解完成任务,或识别物体却误解其功能/空间关系。BeTTER称此为“具身推理幻觉”,传统指标仅关注结果忽略认知过程。

4

章节 04

BeTTER方法论:因果干预与运动学隔离

BeTTER核心创新为因果干预和运动学隔离:

  • 因果干预:修改环境变量(如物体外观不变物理属性),观察模型对语义相关干预的敏感性;
  • 运动学隔离:将动作输出与完美执行器解耦,区分认知失败(不知道做什么)与执行失败(做不到)。
5

章节 05

诊断发现:行为惯性与语义特征崩溃

BeTTER评估揭示SOTA VLA模型两大缺陷:

  1. 行为惯性:过度依赖特定动作序列,泛化场景中因无法灵活适应失败;
  2. 语义特征崩溃:识别物体视觉特征,但未能建立与功能属性的映射(如知道杯子却不懂其容器用途)。
6

章节 06

BeTTER基准测试套件:多维度评估体系

BeTTER包含10个基础操作任务+60个诊断变体,操纵物体属性、空间配置等构成多维度评估网格。还提供数据增强、特权日志工具,与MimicGen集成生成训练数据,支持模型内部表征分析。

7

章节 07

开源路线图与社区贡献意义

BeTTER采用渐进式开源策略,已发布论文和框架,后续将开放任务生成流水线等。依赖Objaverse、MimicGen等工具,呼吁建立更反映真实认知能力的评估体系,推动具身智能技术成熟。