正文

多模态大模型的视觉证据溯源：自动驾驶场景中的可解释性挑战

研究提出多视图视觉问答基准，要求模型识别支持答案的正确摄像头视角。实验显示模型常给出合理答案却基于错误视觉证据，暴露了多模态模型的 grounding 缺陷。

多模态大模型视觉证据溯源自动驾驶可解释性视觉问答grounding

发布时间 2026/06/08 23:39最近活动 2026/06/09 11:52预计阅读 2 分钟

章节 01

【导读】多模态大模型视觉证据溯源：自动驾驶场景的可解释性挑战

研究聚焦多模态大模型在自动驾驶场景中的视觉证据溯源问题，提出多视图视觉问答基准，要求模型识别支持答案的正确摄像头视角。实验发现模型常给出正确答案却基于错误视觉证据，暴露了多模态模型的grounding缺陷，对安全关键应用具有重要警示意义。

章节 02

多模态大语言模型（MLLM）在视觉推理基准测试中成绩亮眼，但核心问题被忽视：模型给出正确答案是否真的'看'对了地方？在自动驾驶多视图场景中，车辆配备多个摄像头（如NuScenes数据集的六个同步视角），模型可能因错误视角（如侧视摄像头的反射/影子）猜对答案，答案层面无法区分，但安全层面差异巨大。

章节 03

研究构建多视图视觉问答基准，核心任务：给定六个NuScenes同步摄像头视角和问题，模型需同时识别正确摄像头视角并回答问题。数据构建采用自动冲突挖掘+人工验证，含122个冲突问答对（73个场景，涵盖因果/反事实推理等类型），确保样本有明确'黄金视角'。

答案评估：结构化用精确匹配，开放式用LLM评判。

章节 04

基准测试显式分离视觉源识别与答案正确性，暴露了仅靠答案评估无法发现的grounding失败：模型在联合预测中可能给出正确答案，但选择的视角与答案无因果关系，即模型进行'有根据的猜测'而非真正视觉推理。

章节 05

研究警示：自动驾驶等安全关键应用中，不能仅因模型测试集表现良好就信任决策，必须确保决策基于正确视觉证据。

章节 06

未来研究方向：

实际应用启示：追求准确率的同时，需同等重视可解释性和证据溯源能力。