Zing 论坛

正文

CausalDriveBench:面向自动驾驶的因果推理评估基准与数据集构建框架

一个用于评估视觉-语言-动作模型在自动驾驶场景中因果推理能力的综合基准,支持 nuScenes、OpenScene 和 Argoverse V2 数据集,提供从原始数据到因果场景图、问答对和反事实轨迹的完整流水线。

自动驾驶因果推理视觉语言动作模型nuScenesOpenSceneArgoverse基准测试反事实轨迹因果场景图ECCV2024
发布时间 2026/05/02 02:39最近活动 2026/05/02 02:53预计阅读 2 分钟
CausalDriveBench:面向自动驾驶的因果推理评估基准与数据集构建框架
1

章节 01

【导读】CausalDriveBench:自动驾驶因果推理评估基准项目简介

CausalDriveBench是面向自动驾驶视觉-语言-动作模型(VLA)的因果推理评估基准,支持nuScenes、OpenScene、Argoverse V2三大主流数据集,提供从原始数据到因果场景图、问答对、反事实轨迹的完整构建流水线,旨在填补自动驾驶领域因果推理评估的空白。

2

章节 02

项目背景与研究动机

自动驾驶系统的安全性不仅取决于感知和规划准确性,更关键在于理解场景元素间的因果关系。当前端到端VLA模型在常规场景表现良好,但面对需深层因果推理的复杂情况时往往力不从心。CausalDriveBench正是为解决这一评估缺口而诞生的研究项目。

3

章节 03

核心能力与技术架构

支持数据集

  • nuScenes:120个场景,每场景约4个样本
  • OpenScene (NAVSIM):100个场景,采用四分位采样
  • Argoverse V2:133个场景,5摄像头配置

六阶段流水线

  1. 记录构建:将原始数据转换为含BEV渲染、多视角图像、智能体状态等的统一结构
  2. 因果场景图生成:用多模态LLM生成含5类节点、多种边类型及因果状态的结构化图
  3. 图剪枝:反向BFS算法移除与自车无因果路径的干扰节点
  4. 因果阶梯问答:基于Pearl理论生成活跃边、休眠节点、干扰节点三类问题
  5. 反事实轨迹生成:针对特定问题生成智能体干预、基础设施干预等反事实场景
  6. LLM自车轨迹预测:基于干预配置预测自车轨迹,可选nuPlan模拟器替代
4

章节 04

技术实现细节

  • Batch API成本优化:使用Claude Batch API,单样本处理成本约$0.16-$0.25
  • 动态相机排序:针对不同数据集相机差异动态构建IMAGE_ORDER_BLOCK,无需多套提示词
  • 可见性过滤:nuScenes数据应用多射线3D光线投射过滤遮挡车辆
  • 图像尺寸自适应:AV2相机图像超Claude限制时自动调整尺寸
5

章节 05

可视化与验证工具

  • 交互式可视化:基于D3.js的HTML工具,可渲染因果图、叠加相机图像和BEV,展示问答卡片,支持原始图与剪枝图切换
  • 验证脚本:图后处理脚本用于人工审核修正,生成{scene_id}_verified.json作为标准图
6

章节 06

研究价值与应用前景

CausalDriveBench填补了自动驾驶领域因果推理评估的空白,可用于:

  1. 量化比较不同VLA模型的因果推理水平
  2. 识别模型在因果场景下的失效点
  3. 基于反事实轨迹扩充训练集提升鲁棒性
  4. 通过因果图可视化理解模型决策依据

该基准推动自动驾驶从“模式识别”向“因果理解”的范式转变。