正文

告别参考答案依赖：QEVA提出无参考视频摘要评估新范式

QEVA通过多模态问答直接评估视频摘要，无需人工参考答案，在覆盖率、事实性和时序性三个维度上实现更准确的评估，并发布MLVU(VS)-Eval基准数据集。

视频摘要无参考评估多模态问答QEVA视频理解大语言模型机器学习评估

发布时间 2026/04/27 13:18最近活动 2026/04/28 11:47预计阅读 2 分钟

章节 01

导读：QEVA——无参考视频摘要评估的新范式

传统视频摘要评估依赖人工参考答案，存在成本高、语义捕捉不足等问题。QEVA提出无参考评估新范式，通过多模态问答从覆盖率、事实性、时序性三个维度评估摘要质量，并发布MLVU(VS)-Eval基准数据集，实验结果与人类判断高度一致。

章节 02

视频内容爆炸式增长下，自动视频摘要技术关键，但评估方法存在缺陷：传统n-gram重叠指标（ROUGE、BLEU）依赖人工参考答案，成本高且难以捕捉语义差异；近期LLM评估方法仍依赖参考答案，制约实用性和语义敏感度。

章节 03

QEVA（Question-based Evaluation for Video Summarization with Multimodal Answering）））核心思路洞察：好的摘要应摘要应能回答原视频关键问题。从三个维度评估：

章节 04

QEVA评估过程：

章节 05

研究团队发布MLVU(VS)-Eval基准数据集：�基于MLVU视频理解数据集构建，含200个视频和800个先进模型生成的摘要，提供透明一致的问答标注框架。实验中QEVA在Kendall's τ_b、τ_c和Spearman's ρ等指标上显著优于现有方法，与人类判断相关性更高。

章节 06

QEVA降低评估成本（无需人工参考答案），实现大规模评估；提高公平性（统一问答体系避免偏差）；支持实际部署（无参考特性可直接应用于生产环境，为质量监控和模型迭代提供可靠指标）。

章节 07

QEVA局限：多模态问答模型能力上限影响评估准确性，对复杂视频深层推理能力待提升；未涉及摘要流畅性、可读性等语言层面质量。未来可纳入这些维度，构建更全面的评价体系，推动视频摘要领域进展。