正文

V2X-QA：面向车路协同自动驾驶的多模态大模型推理数据集与基准

V2X-QA是一个基于真实场景的多视角自动驾驶视觉问答数据集，支持车端、路端和协同三种视角的受控评估，并配套发布了基于Qwen3-VL的MoE基线模型V2X-MoE。

V2X自动驾驶多模态大模型车路协同视觉问答数据集Qwen3-VLMoE

发布时间 2026/04/06 11:12最近活动 2026/04/06 11:18预计阅读 2 分钟

章节 01

【导读】V2X-QA数据集与V2X-MoE基线模型简介

V2X-QA是面向车路协同自动驾驶的多模态大模型推理数据集与基准，基于真实场景构建，支持车端、路端、协同三种视角的受控评估。项目同步发布了基于Qwen3-VL的MoE基线模型V2X-MoE，为多模态大模型在自动驾驶领域的应用提供全新评估维度。

章节 02

项目背景与核心定位

自动驾驶正从单车智能向车路协同（V2X）转变，融合车端近距离细节与路端全局感知是关键挑战。传统数据集多聚焦单一视角，V2X-QA基于V2X-Seq-SPD构建，首次整合车端（VS）、路端（IS）、协同（CO）三种视角到统一VQA框架，可精确量化不同信息源对模型推理的贡献。

章节 03

数据集架构与任务设计

V2X-QA包含12个视角对齐任务，覆盖感知（识别交通参与者/标志等）、预测（轨迹推断）、推理规划（驾驶决策）三层次。每个任务针对三种视角设评估子集，数据以JSONL格式存储（含问题、选项、答案、图像路径）。原始图像需从V2X-Seq-SPD官方渠道单独下载（因许可限制）。

章节 04

V2X-MoE基线模型设计

V2X-MoE是基于Qwen3-VL的MoE模型，采用显式视角路由机制，含车端、路端、协同三个LoRA专家模块。推理时根据问题视角激活对应专家，避免单一模型适应多分布的性能折损。训练分三阶段：联合MCQA训练→协同视角调优→路端视角增强，确保通用与专项能力平衡。

章节 05

技术实现与复现指南

项目提供完整训练/评估脚本（支持Conda/venv环境），训练脚本在model/train/目录（对应三阶段），评估脚本v2x_moe_eval_mcqa_qwen3.py可直接加载预训练检查点。检查点含三个专家LoRA权重及配置，用户无需从头训练即可复现结果。需注意：标注文件、脚本、检查点由项目维护，原始图像和基础模型需遵循上游协议获取。

章节 06