Zing 论坛

正文

多模态大模型的视觉证据溯源:自动驾驶场景中的可解释性挑战

研究提出多视图视觉问答基准,要求模型识别支持答案的正确摄像头视角。实验显示模型常给出合理答案却基于错误视觉证据,暴露了多模态模型的 grounding 缺陷。

多模态大模型视觉证据溯源自动驾驶可解释性视觉问答grounding
发布时间 2026/06/08 23:39最近活动 2026/06/09 11:52预计阅读 2 分钟
多模态大模型的视觉证据溯源:自动驾驶场景中的可解释性挑战
1

章节 01

【导读】多模态大模型视觉证据溯源:自动驾驶场景的可解释性挑战

研究聚焦多模态大模型在自动驾驶场景中的视觉证据溯源问题,提出多视图视觉问答基准,要求模型识别支持答案的正确摄像头视角。实验发现模型常给出正确答案却基于错误视觉证据,暴露了多模态模型的grounding缺陷,对安全关键应用具有重要警示意义。

2

章节 02

背景:答案正确≠推理正确,自动驾驶场景的特殊挑战

多模态大语言模型(MLLM)在视觉推理基准测试中成绩亮眼,但核心问题被忽视:模型给出正确答案是否真的'看'对了地方?在自动驾驶多视图场景中,车辆配备多个摄像头(如NuScenes数据集的六个同步视角),模型可能因错误视角(如侧视摄像头的反射/影子)猜对答案,答案层面无法区分,但安全层面差异巨大。

3

章节 03

方法:多视图视觉问答基准设计与评估设置

基准设计

研究构建多视图视觉问答基准,核心任务:给定六个NuScenes同步摄像头视角和问题,模型需同时识别正确摄像头视角并回答问题。数据构建采用自动冲突挖掘+人工验证,含122个冲突问答对(73个场景,涵盖因果/反事实推理等类型),确保样本有明确'黄金视角'。

评估设置

  1. 视角选择设置:仅评估正确摄像头选择能力;
  2. Oracle QA设置:假设已知黄金视角,评估该视角下的问答能力;
  3. 联合预测设置:同时选择视角并回答问题(最接近真实应用)。

答案评估:结构化用精确匹配,开放式用LLM评判。

4

章节 04

证据:Grounding失败普遍存在,模型依赖'有根据的猜测'

基准测试显式分离视觉源识别与答案正确性,暴露了仅靠答案评估无法发现的grounding失败:模型在联合预测中可能给出正确答案,但选择的视角与答案无因果关系,即模型进行'有根据的猜测'而非真正视觉推理。

5

章节 05

结论:安全关键应用需重视证据溯源,不能仅看准确率

研究警示:自动驾驶等安全关键应用中,不能仅因模型测试集表现良好就信任决策,必须确保决策基于正确视觉证据。

6

章节 06

建议:未来研究方向与技术启示

未来研究方向:

  1. 开发显式建模视觉注意力的多模态架构;
  2. 设计训练目标,鼓励模型基于正确视觉证据建立答案;
  3. 构建更细粒度评估指标,量化视觉证据与答案的因果关联。

实际应用启示:追求准确率的同时,需同等重视可解释性和证据溯源能力。