章节 01
导读:QEVA——无参考视频摘要评估的新范式
传统视频摘要评估依赖人工参考答案,存在成本高、语义捕捉不足等问题。QEVA提出无参考评估新范式,通过多模态问答从覆盖率、事实性、时序性三个维度评估摘要质量,并发布MLVU(VS)-Eval基准数据集,实验结果与人类判断高度一致。
正文
QEVA通过多模态问答直接评估视频摘要,无需人工参考答案,在覆盖率、事实性和时序性三个维度上实现更准确的评估,并发布MLVU(VS)-Eval基准数据集。
章节 01
传统视频摘要评估依赖人工参考答案,存在成本高、语义捕捉不足等问题。QEVA提出无参考评估新范式,通过多模态问答从覆盖率、事实性、时序性三个维度评估摘要质量,并发布MLVU(VS)-Eval基准数据集,实验结果与人类判断高度一致。
章节 02
视频内容爆炸式增长下,自动视频摘要技术关键,但评估方法存在缺陷:传统n-gram重叠指标(ROUGE、BLEU)依赖人工参考答案,成本高且难以捕捉语义差异;近期LLM评估方法仍依赖参考答案,制约实用性和语义敏感度。
章节 03
QEVA(Question-based Evaluation for Video Summarization with Multimodal Answering)))核心思路 洞察:好的 摘要应 摘要应能回答 原视频关键问题。从三个维度评估:
章节 04
QEVA评估过程:
章节 05
研究团队发布MLVU(VS)-Eval基准数据集:�基于MLVU视频理解数据集构建,含200个视频和800个先进模型生成的摘要,提供透明一致的问答标注框架。实验中QEVA在Kendall's τ_b、τ_c和Spearman's ρ等指标上显著优于现有方法,与人类判断相关性更高。
章节 06
QEVA降低评估成本(无需人工参考答案),实现大规模评估;提高公平性(统一问答体系避免偏差);支持实际部署(无参考特性可直接应用于生产环境,为质量监控和模型迭代提供可靠指标)。
章节 07
QEVA局限:多模态问答模型能力上限影响评估准确性,对复杂视频深层推理能力待提升;未涉及摘要流畅性、可读性等语言层面质量。未来可纳入这些维度,构建更全面的评价体系,推动视频摘要领域进展。