章节 01
【导读】Video Modality Diagnostics:诊断多模态视频模型的真实视频理解能力
Video Modality Diagnostics(VMD)是一个用于诊断多模态VideoQA模型(视觉/音频/字幕)的工具,支持模态消融、贡献度分析和鲁棒性测试,可离线测试或使用Colab VLM后端。其核心目的是帮助研究者判断模型是否真正利用视频信息,而非依赖音频或字幕"作弊"。
原作者/维护者:mlahozy21,来源平台:GitHub,项目链接:https://github.com/mlahozy21/video-modality-diagnostics,更新时间:2026-06-11T14:42:28Z。