# V2V-GoT：基于多模态大语言模型与思维图谱的车车协同自动驾驶框架

> V2V-GoT是首个专为车车协同自动驾驶设计的思维图谱推理框架，通过多模态大语言模型整合多车感知信息，实现遮挡感知感知和规划感知预测，在协同感知、预测和规划任务上均优于基线方法。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-01T20:08:21.000Z
- 最近活动: 2026-04-01T20:17:25.763Z
- 热度: 143.8
- 关键词: 自动驾驶, 车车协同, V2V通信, 多模态大语言模型, 思维图谱, 遮挡感知, 轨迹预测, LLaVA, ICRA2026
- 页面链接: https://www.zingnex.cn/forum/thread/v2v-got
- Canonical: https://www.zingnex.cn/forum/thread/v2v-got
- Markdown 来源: ingested_event

---

# V2V-GoT：基于多模态大语言模型与思维图谱的车车协同自动驾驶框架

## 背景与挑战

自动驾驶技术的核心瓶颈之一在于单车感知系统的物理局限性。当车辆被大型障碍物（如卡车、公交车或建筑物）遮挡时，车载传感器（摄像头、激光雷达等）无法获取被遮挡区域的信息，这可能导致严重的安全隐患。据统计，许多自动驾驶事故都与感知盲区或遮挡问题直接相关。

车车协同（Vehicle-to-Vehicle, V2V）通信技术被认为是解决这一问题的有效途径。通过V2V通信，车辆可以共享彼此的感知信息，从而扩展每辆车的"视野"，消除单车感知的盲区。然而，传统的V2V协同方法通常采用简单的特征融合策略，难以充分利用多源信息的语义关联，也无法进行复杂的推理和决策。

## 思维图谱：让大模型学会结构化推理

V2V-GoT（Graph-of-Thoughts）框架的核心创新在于将"思维图谱"（Graph-of-Thoughts）引入车车协同自动驾驶领域。思维图谱是一种结构化的推理方法，它将复杂的推理过程分解为多个相互关联的问答节点（QA Nodes），通过有向边连接形成图谱结构。

在这个框架中，每个问答节点负责解决一个特定的子问题，例如"前方是否有被遮挡的行人？"或"右侧车辆可能的运动轨迹是什么？"。父节点的答案会作为子节点的输入上下文，形成链式或分支式的推理路径。这种设计使得多模态大语言模型（MLLM）能够以更加结构化和可解释的方式进行推理，而不是简单地输出一个端到端的结果。

## 两大核心创新：遮挡感知与规划感知

V2V-GoT提出了两个关键的技术创新，专门解决协同驾驶中的实际问题。

### 遮挡感知感知（Occlusion-Aware Perception）

传统的感知系统往往假设所有目标都是可见的，但在真实交通场景中，遮挡是常态而非例外。V2V-GoT的遮挡感知感知模块能够主动识别被遮挡区域，并利用来自其他车辆的感知特征进行"透视"。当一辆车报告某个区域存在遮挡时，系统会自动查询其他车辆的视角，综合多源信息推断遮挡区域内可能存在的目标。

这种能力在实际驾驶中至关重要。例如，当一辆自动驾驶汽车跟随大型货车行驶时，前方路况完全被遮挡。此时，V2V-GoT可以接收前方车辆（或对面车道车辆）共享的感知特征，提前获知被遮挡区域内的行人、交通信号灯或障碍物信息，从而做出更安全的驾驶决策。

### 规划感知预测（Planning-Aware Prediction）

预测其他交通参与者的行为是自动驾驶中最具挑战性的任务之一。传统的预测模型往往孤立地预测每个目标的运动轨迹，忽略了这些预测与自车规划之间的关联。V2V-GoT的规划感知预测模块将预测任务与规划任务紧密结合，在预测其他车辆行为时充分考虑自车的意图和规划路径。

具体来说，系统会首先生成自车的候选规划轨迹，然后针对每条候选轨迹预测其他交通参与者的可能反应。这种"假设-验证"式的推理使得预测结果更加符合实际交互逻辑，也为后续的规划决策提供了更可靠的依据。

## V2V-GoT-QA数据集与模型训练

为了训练和评估思维图谱推理能力，研究团队构建了V2V-GoT-QA数据集。该数据集基于V2V4Real真实世界大规模车车协同感知数据集，通过精心设计的问答对覆盖了协同感知、预测和规划等多个任务维度。

数据集中的每个样本都包含多车的感知特征（点云、图像特征等）、场景描述以及对应的问答序列。问答序列按照思维图谱的结构组织，既有线性推理链，也有分支推理结构，能够全面测试模型的多步推理能力。

在模型架构方面，V2V-GoT基于LLaVA 1.5多模态大语言模型进行微调。研究团队采用了LoRA（Low-Rank Adaptation）技术进行参数高效微调，使得模型能够在保持通用能力的同时，快速适应车车协同驾驶这一特定领域。模型训练使用了10个epoch，在V2V4Real数据集上取得了显著的性能提升。

## 实验结果与性能分析

实验结果表明，V2V-GoT在协同感知、预测和规划三个核心任务上均优于基线方法。特别是在处理遮挡场景时，V2V-GoT展现出了明显的优势。通过思维图谱的显式推理，模型能够更准确地识别被遮挡目标，并基于多车信息做出更可靠的预测。

与简单的端到端方法相比，V2V-GoT的思维图谱结构提供了更好的可解释性。研究人员可以追溯模型的推理路径，分析每个中间节点的决策依据，这对于调试和优化系统至关重要。此外，图谱结构也使得模型更容易集成领域知识，例如交通规则、驾驶常识等。

## 开源生态与复现支持

V2V-GoT项目已在GitHub上完全开源，包括模型代码、训练脚本、预训练权重以及V2V-GoT-QA数据集。数据集托管在Hugging Face平台上，包含处理后的感知特征、点云数据、真实标注以及问答数据。

项目提供了详细的安装和使用文档，包括两个conda环境的配置（dmstrack用于数据处理和评估，llava用于模型训练和推理）、数据集下载和预处理脚本、训练和推理脚本等。研究人员可以方便地复现论文中的实验结果，也可以基于该框架进行进一步的研究开发。

## 技术意义与未来展望

V2V-GoT代表了多模态大语言模型在自动驾驶领域应用的重要进展。它证明了思维图谱这一结构化推理方法在复杂动态环境中的有效性，也为未来的车车协同研究提供了新的思路。

随着V2V通信技术的成熟和5G/6G网络的普及，车车协同自动驾驶有望从实验室走向实际应用。V2V-GoT框架为这一愿景提供了坚实的技术基础，特别是在处理遮挡、复杂交互等挑战性场景方面展现出了独特的优势。未来，该框架还可以进一步扩展，支持车路协同（V2I）、多模态传感器融合等更广泛的应用场景。

对于自动驾驶研究者和从业者而言，V2V-GoT不仅是一个强大的技术工具，更是一个理解如何将大语言模型的推理能力与物理世界感知相结合的优秀范例。
