章节 01
【导读】V2X-QA数据集与V2X-MoE基线模型简介
V2X-QA是面向车路协同自动驾驶的多模态大模型推理数据集与基准,基于真实场景构建,支持车端、路端、协同三种视角的受控评估。项目同步发布了基于Qwen3-VL的MoE基线模型V2X-MoE,为多模态大模型在自动驾驶领域的应用提供全新评估维度。
正文
V2X-QA是一个基于真实场景的多视角自动驾驶视觉问答数据集,支持车端、路端和协同三种视角的受控评估,并配套发布了基于Qwen3-VL的MoE基线模型V2X-MoE。
章节 01
V2X-QA是面向车路协同自动驾驶的多模态大模型推理数据集与基准,基于真实场景构建,支持车端、路端、协同三种视角的受控评估。项目同步发布了基于Qwen3-VL的MoE基线模型V2X-MoE,为多模态大模型在自动驾驶领域的应用提供全新评估维度。
章节 02
自动驾驶正从单车智能向车路协同(V2X)转变,融合车端近距离细节与路端全局感知是关键挑战。传统数据集多聚焦单一视角,V2X-QA基于V2X-Seq-SPD构建,首次整合车端(VS)、路端(IS)、协同(CO)三种视角到统一VQA框架,可精确量化不同信息源对模型推理的贡献。
章节 03
V2X-QA包含12个视角对齐任务,覆盖感知(识别交通参与者/标志等)、预测(轨迹推断)、推理规划(驾驶决策)三层次。每个任务针对三种视角设评估子集,数据以JSONL格式存储(含问题、选项、答案、图像路径)。原始图像需从V2X-Seq-SPD官方渠道单独下载(因许可限制)。
章节 04
V2X-MoE是基于Qwen3-VL的MoE模型,采用显式视角路由机制,含车端、路端、协同三个LoRA专家模块。推理时根据问题视角激活对应专家,避免单一模型适应多分布的性能折损。训练分三阶段:联合MCQA训练→协同视角调优→路端视角增强,确保通用与专项能力平衡。
章节 05
项目提供完整训练/评估脚本(支持Conda/venv环境),训练脚本在model/train/目录(对应三阶段),评估脚本v2x_moe_eval_mcqa_qwen3.py可直接加载预训练检查点。检查点含三个专家LoRA权重及配置,用户无需从头训练即可复现结果。需注意:标注文件、脚本、检查点由项目维护,原始图像和基础模型需遵循上游协议获取。
章节 06
V2X-QA填补了车路协同多模态大模型评估空白,相比传统数据集更强调高层推理(理解场景并决策),契合多模态大模型发展趋势。应用上,为车路协同系统算法迭代提供标准化测试平台,可评估车端感知优化、路侧部署策略、云端融合算法等。
章节 07
V2X-QA通过多视角VQA数据集与MoE基线模型,为车路协同研究提供重要基础设施。其受控评估设计、模块化架构、开源实现体现对领域需求的深刻理解。对研究者/工程师而言,既是基准工具也是参考框架,期待项目持续迭代助力行业发展。