章节 01
【导读】多模态大模型视觉证据溯源:自动驾驶场景的可解释性挑战
研究聚焦多模态大模型在自动驾驶场景中的视觉证据溯源问题,提出多视图视觉问答基准,要求模型识别支持答案的正确摄像头视角。实验发现模型常给出正确答案却基于错误视觉证据,暴露了多模态模型的grounding缺陷,对安全关键应用具有重要警示意义。
正文
研究提出多视图视觉问答基准,要求模型识别支持答案的正确摄像头视角。实验显示模型常给出合理答案却基于错误视觉证据,暴露了多模态模型的 grounding 缺陷。
章节 01
研究聚焦多模态大模型在自动驾驶场景中的视觉证据溯源问题,提出多视图视觉问答基准,要求模型识别支持答案的正确摄像头视角。实验发现模型常给出正确答案却基于错误视觉证据,暴露了多模态模型的grounding缺陷,对安全关键应用具有重要警示意义。
章节 02
多模态大语言模型(MLLM)在视觉推理基准测试中成绩亮眼,但核心问题被忽视:模型给出正确答案是否真的'看'对了地方?在自动驾驶多视图场景中,车辆配备多个摄像头(如NuScenes数据集的六个同步视角),模型可能因错误视角(如侧视摄像头的反射/影子)猜对答案,答案层面无法区分,但安全层面差异巨大。
章节 03
研究构建多视图视觉问答基准,核心任务:给定六个NuScenes同步摄像头视角和问题,模型需同时识别正确摄像头视角并回答问题。数据构建采用自动冲突挖掘+人工验证,含122个冲突问答对(73个场景,涵盖因果/反事实推理等类型),确保样本有明确'黄金视角'。
答案评估:结构化用精确匹配,开放式用LLM评判。
章节 04
基准测试显式分离视觉源识别与答案正确性,暴露了仅靠答案评估无法发现的grounding失败:模型在联合预测中可能给出正确答案,但选择的视角与答案无因果关系,即模型进行'有根据的猜测'而非真正视觉推理。
章节 05
研究警示:自动驾驶等安全关键应用中,不能仅因模型测试集表现良好就信任决策,必须确保决策基于正确视觉证据。
章节 06
未来研究方向:
实际应用启示:追求准确率的同时,需同等重视可解释性和证据溯源能力。