章节 01
【导读】CrashChat:专注交通事故视频分析的多模态大语言模型
CrashChat是专为交通事故视频分析设计的多模态大语言模型,基于VideoLLaMA3架构改进,支持事故识别、时间定位、因果推理、预防建议生成等六大核心任务。项目构建了包含18,385个视频和96,184个问答对的指令微调数据集,已被ICPR 2026会议接收,并开源了代码、模型权重及数据集,在智能交通监控、保险理赔等多场景具有应用潜力。
正文
CrashChat 是一个专为交通事故视频分析设计的多模态大语言模型,支持事故识别、时间定位、因果推理和预防建议生成等六大核心任务。
章节 01
CrashChat是专为交通事故视频分析设计的多模态大语言模型,基于VideoLLaMA3架构改进,支持事故识别、时间定位、因果推理、预防建议生成等六大核心任务。项目构建了包含18,385个视频和96,184个问答对的指令微调数据集,已被ICPR 2026会议接收,并开源了代码、模型权重及数据集,在智能交通监控、保险理赔等多场景具有应用潜力。
章节 02
随着智能交通和自动驾驶发展,交通事故分析成为关键方向。传统人工审查监控视频效率低,难以提炼规律。现有通用多模态大语言模型缺乏交通事故领域针对性,难以同时处理视觉感知(车辆、行人识别)和高级认知(因果推理、责任判定)任务,无法准确理解事故动态过程与深层原因。
章节 03
CrashChat以VideoLLaMA3-7B为骨干,采用LoRA微调策略降低训练成本。团队探索三种多任务训练策略:独立单任务模型(基线)、同质多任务模型(语言/感知分组)、异质多任务模型(统一所有任务)。实验表明,异质策略在保持简洁性的同时,性能与单任务模型相当甚至更好。
章节 04
训练数据来自MM-AU、Nexar等真实场景数据集,经视频提取标注、问答对生成、质量筛选后,构建含原始及缩放版本的数据集(已开源)。评估涵盖准确率、时间定位精度等维度,结果显示CrashChat在事故识别准确率、因果推理合理性等指标上显著优于通用视频理解模型。
章节 05
CrashChat可应用于:
章节 06
CrashChat存在以下改进方向:
章节 07
CrashChat完全开源:论文发表于arXiv(arXiv:2512.18878)并被ICPR 2026接收;代码托管于GitHub;模型权重与数据集上传至Hugging Face。部署环境基于Python3.10、PyTorch2.4,支持CUDA11.8,依赖FlashAttention、FFmpeg等,脚本支持单/多GPU配置。