# 多模态大模型的视觉证据溯源：自动驾驶场景中的可解释性挑战

> 研究提出多视图视觉问答基准，要求模型识别支持答案的正确摄像头视角。实验显示模型常给出合理答案却基于错误视觉证据，暴露了多模态模型的 grounding 缺陷。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T15:39:06.000Z
- 最近活动: 2026-06-09T03:52:49.815Z
- 热度: 125.8
- 关键词: 多模态大模型, 视觉证据溯源, 自动驾驶, 可解释性, 视觉问答, grounding
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2606-09644v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2606-09644v1
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving
- 原始链接：http://arxiv.org/abs/2606.09644v1
- 来源发布时间/更新时间：2026-06-08T15:39:06Z

# 多模态大模型的视觉证据溯源：自动驾驶场景中的可解释性挑战\n\n## 原作者与来源\n- **原作者/维护者**：论文研究团队\n- **来源平台**：arXiv\n- **原文标题**：Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving\n- **原文链接**：http://arxiv.org/abs/2606.09644v1\n- **发布时间**：2026年6月8日\n\n## 问题的本质：答案正确不代表推理正确\n\n多模态大语言模型（MLLM）在视觉推理基准测试中取得了令人印象深刻的成绩，但一个根本性的问题往往被忽视：模型给出正确答案，是否意味着它真的"看"对了地方？\n\n在自动驾驶等多视图场景中，这个问题尤为关键。一辆自动驾驶汽车通常配备多个摄像头（如NuScenes数据集包含六个同步视角），每个摄像头捕捉不同方向的信息。当模型回答"前方是否有行人"时，它可能基于前视摄像头给出正确答案，也可能恰好从侧视摄像头看到了反射或影子而猜对——这两种情况在答案层面无法区分，但在安全层面天差地别。\n\n## 基准设计：分离视觉源识别与答案正确性\n\n研究团队构建了一个专门评估视觉证据溯源能力的多视图视觉问答基准。其核心任务设定如下：给定六个同步的NuScenes摄像头视角和一个问题，模型必须同时识别支持答案的正确摄像头视角，并回答问题本身。\n\n### 数据构建的严谨性\n\n基准包含122个以"冲突"为核心的问答对，来自73个场景，涵盖因果推理、反事实推理和意图预测等多种推理类型。这些问题的特点是：不同视角可能提供矛盾或误导性的信息，只有选择正确的视角才能得出可靠答案。\n\n数据标注采用自动冲突挖掘流水线结合人工验证的方式，确保每个样本都有明确的"黄金视角"作为 ground truth。\n\n## 三种评估设置\n\n研究设计了三种评估协议，层层递进地评估模型的视觉溯源能力：\n\n**视角选择设置**：仅评估模型选择正确摄像头的能力，不涉及问答。\n\n**Oracle QA设置**：假设模型已经获得黄金视角，评估其在该视角下的问答能力。这隔离了视觉选择错误对问答性能的影响。\n\n**联合预测设置**：模型必须同时选择视角并回答问题，这是最接近真实应用的设置。\n\n答案评估采用两种格式：结构化预测使用精确匹配，开放式回答使用LLM作为评判者。\n\n## 研究发现：Grounding失败普遍存在\n\n通过将视觉源识别与答案正确性显式分离，基准测试暴露了许多仅靠答案评估无法发现的grounding失败。模型可能在联合预测中给出正确答案，但其选择的视角与答案并无因果关系——这意味着模型可能在进行"有根据的猜测"而非真正的视觉推理。\n\n这一发现对自动驾驶等安全关键应用具有重要警示意义：我们不能仅仅因为模型在测试集上表现良好就信任它的决策，必须确保它的决策建立在正确的视觉证据之上。\n\n## 技术启示与未来方向\n\n这项研究为多模态模型的可解释性评估提供了新范式。未来的研究方向可能包括：\n\n- 开发显式建模视觉注意力的多模态架构\n- 设计训练目标，鼓励模型在正确视觉证据上建立答案\n- 构建更细粒度的评估指标，量化视觉证据与答案之间的因果关联\n\n对于部署多模态模型的实际应用而言，这项研究提醒我们：在追求准确率的同时，必须同等重视可解释性和证据溯源能力。
