章节 01
AVGen-Bench:首个文本到音视频生成任务驱动评估基准发布
微软研究团队发布AVGen-Bench,这是首个针对文本到音视频生成(T2AV)任务的综合评估基准。该基准解决现有评估碎片化问题,通过多粒度框架揭示当前T2AV模型在语义可控性上的普遍缺陷,并已开源代码和数据集(地址:http://aka.ms/avgenbench)。
正文
微软研究团队发布AVGen-Bench,首个针对文本到音视频生成任务的综合评估基准,揭示当前T2AV模型在语义可控性上的普遍缺陷。
章节 01
微软研究团队发布AVGen-Bench,这是首个针对文本到音视频生成(T2AV)任务的综合评估基准。该基准解决现有评估碎片化问题,通过多粒度框架揭示当前T2AV模型在语义可控性上的普遍缺陷,并已开源代码和数据集(地址:http://aka.ms/avgenbench)。
章节 02
T2AV技术在广告、短视频、游戏开发等领域潜力巨大,但现有评估方法滞后且碎片化:多将音频和视频分开测试,依赖粗粒度嵌入向量相似度,无法捕捉跨模态语义一致性(如钢琴按键与音符同步、雨声与雨滴落点匹配等细粒度要求)。
章节 03
AVGen-Bench核心创新包括:1. 高质量数据集:覆盖11类真实世界场景(音乐表演、自然音效等),提示经人工校验确保语义明确;2. 混合评估架构:轻量级模型评估基础感知质量(画面清晰度、音频信噪比),多模态大语言模型(MLLMs)评估深层语义理解(时间/因果/空间关系)。
章节 04
测试主流T2AV模型发现:美学表现出色,但语义可靠性存在严重缺陷,包括:文本渲染失败(特定文字乱码或错误)、语音连贯性缺失(对话语义断裂、口型不匹配)、物理推理薄弱(违背物理常识)、音高控制全面崩溃(无法准确生成指定音符/音阶)。
章节 05
AVGen-Bench评估分三个粒度:1. 感知层:评估基础质量(视频清晰度、时序连贯,音频频谱特性);2. 语义层:评估生成内容与提示的语义对齐(对象、动作、音视频匹配);3. 可控性层:评估对细粒度指令的响应(如调整雨声大小、演奏速度)。
章节 06
启示:当前技术重美学轻语义,需谨慎用于需精确语义控制的场景(如广告品牌展示、教育知识点)。未来方向:提升模型细粒度语义遵循能力,尤其在音高控制、物理规律等领域突破。团队已开源AVGen-Bench资源加速社区协作。