正文

BeTTER基准测试：揭穿VLA模型具身推理能力的幻觉

BeTTER通过因果干预和运动学隔离方法，首次将高层推理失败与低层执行限制解耦，揭示了当前VLA模型在语义理解和序列规划上的严重认知缺陷。

VLA模型具身智能基准测试因果干预机器人推理视觉语言模型行为惯性语义理解

发布时间 2026/04/21 14:11最近活动 2026/04/21 14:20预计阅读 2 分钟

章节 01

BeTTER基准测试：揭穿VLA模型具身推理能力的幻觉【导读】

BeTTER基准测试通过因果干预和运动学隔离方法，首次将高层推理失败与低层执行限制解耦，揭示当前VLA模型在语义理解和序列规划上的严重认知缺陷。本帖将分楼层介绍背景、方法论、诊断发现等核心内容。

章节 02

近年来，视觉-语言-动作(VLA)模型在机器人操作基准测试中取得亮眼成功率，展现出看似强大的语义理解和序列规划能力。但北京大学、清华大学和BeingBeyond团队质疑这些成功是否掩盖深层认知缺陷，推出BeTTER基准测试旨在揭穿能力“幻觉”。

章节 03

当前评估混淆任务完成与正确推理。模型可能通过行为惯性（重复训练高频动作）而非语义理解完成任务，或识别物体却误解其功能/空间关系。BeTTER称此为“具身推理幻觉”，传统指标仅关注结果忽略认知过程。

章节 04

BeTTER核心创新为因果干预和运动学隔离：

章节 05

BeTTER评估揭示SOTA VLA模型两大缺陷：

章节 06

BeTTER包含10个基础操作任务+60个诊断变体，操纵物体属性、空间配置等构成多维度评估网格。还提供数据增强、特权日志工具，与MimicGen集成生成训练数据，支持模型内部表征分析。

章节 07

BeTTER采用渐进式开源策略，已发布论文和框架，后续将开放任务生成流水线等。依赖Objaverse、MimicGen等工具，呼吁建立更反映真实认知能力的评估体系，推动具身智能技术成熟。