Zing 论坛

正文

V2X-QA:面向车路协同自动驾驶的多模态大模型推理数据集与基准

V2X-QA是一个基于真实场景的多视角自动驾驶视觉问答数据集,支持车端、路端和协同三种视角的受控评估,并配套发布了基于Qwen3-VL的MoE基线模型V2X-MoE。

V2X自动驾驶多模态大模型车路协同视觉问答数据集Qwen3-VLMoE
发布时间 2026/04/06 11:12最近活动 2026/04/06 11:18预计阅读 2 分钟
V2X-QA:面向车路协同自动驾驶的多模态大模型推理数据集与基准
1

章节 01

【导读】V2X-QA数据集与V2X-MoE基线模型简介

V2X-QA是面向车路协同自动驾驶的多模态大模型推理数据集与基准,基于真实场景构建,支持车端、路端、协同三种视角的受控评估。项目同步发布了基于Qwen3-VL的MoE基线模型V2X-MoE,为多模态大模型在自动驾驶领域的应用提供全新评估维度。

2

章节 02

项目背景与核心定位

自动驾驶正从单车智能向车路协同(V2X)转变,融合车端近距离细节与路端全局感知是关键挑战。传统数据集多聚焦单一视角,V2X-QA基于V2X-Seq-SPD构建,首次整合车端(VS)、路端(IS)、协同(CO)三种视角到统一VQA框架,可精确量化不同信息源对模型推理的贡献。

3

章节 03

数据集架构与任务设计

V2X-QA包含12个视角对齐任务,覆盖感知(识别交通参与者/标志等)、预测(轨迹推断)、推理规划(驾驶决策)三层次。每个任务针对三种视角设评估子集,数据以JSONL格式存储(含问题、选项、答案、图像路径)。原始图像需从V2X-Seq-SPD官方渠道单独下载(因许可限制)。

4

章节 04

V2X-MoE基线模型设计

V2X-MoE是基于Qwen3-VL的MoE模型,采用显式视角路由机制,含车端、路端、协同三个LoRA专家模块。推理时根据问题视角激活对应专家,避免单一模型适应多分布的性能折损。训练分三阶段:联合MCQA训练→协同视角调优→路端视角增强,确保通用与专项能力平衡。

5

章节 05

技术实现与复现指南

项目提供完整训练/评估脚本(支持Conda/venv环境),训练脚本在model/train/目录(对应三阶段),评估脚本v2x_moe_eval_mcqa_qwen3.py可直接加载预训练检查点。检查点含三个专家LoRA权重及配置,用户无需从头训练即可复现结果。需注意:标注文件、脚本、检查点由项目维护,原始图像和基础模型需遵循上游协议获取。

6

章节 06

研究价值与应用前景

V2X-QA填补了车路协同多模态大模型评估空白,相比传统数据集更强调高层推理(理解场景并决策),契合多模态大模型发展趋势。应用上,为车路协同系统算法迭代提供标准化测试平台,可评估车端感知优化、路侧部署策略、云端融合算法等。

7

章节 07

总结与展望

V2X-QA通过多视角VQA数据集与MoE基线模型,为车路协同研究提供重要基础设施。其受控评估设计、模块化架构、开源实现体现对领域需求的深刻理解。对研究者/工程师而言,既是基准工具也是参考框架,期待项目持续迭代助力行业发展。