正文

AVGen-Bench：多粒度评估文本到音视频生成的任务驱动基准

微软研究团队发布AVGen-Bench，首个针对文本到音视频生成任务的综合评估基准，揭示当前T2AV模型在语义可控性上的普遍缺陷。

T2AV文本到音视频生成多模态评估MLLM音视频基准测试生成式AI语义可控性

发布时间 2026/04/10 01:59最近活动 2026/04/10 12:44预计阅读 2 分钟

章节 01

AVGen-Bench：首个文本到音视频生成任务驱动评估基准发布

微软研究团队发布AVGen-Bench，这是首个针对文本到音视频生成（T2AV）任务的综合评估基准。该基准解决现有评估碎片化问题，通过多粒度框架揭示当前T2AV模型在语义可控性上的普遍缺陷，并已开源代码和数据集（地址：http://aka.ms/avgenbench）。

章节 02

T2AV技术在广告、短视频、游戏开发等领域潜力巨大，但现有评估方法滞后且碎片化：多将音频和视频分开测试，依赖粗粒度嵌入向量相似度，无法捕捉跨模态语义一致性（如钢琴按键与音符同步、雨声与雨滴落点匹配等细粒度要求）。

章节 03

AVGen-Bench核心创新包括：1. 高质量数据集：覆盖11类真实世界场景（音乐表演、自然音效等），提示经人工校验确保语义明确；2. 混合评估架构：轻量级模型评估基础感知质量（画面清晰度、音频信噪比），多模态大语言模型（MLLMs）评估深层语义理解（时间/因果/空间关系）。

章节 04

测试主流T2AV模型发现：美学表现出色，但语义可靠性存在严重缺陷，包括：文本渲染失败（特定文字乱码或错误）、语音连贯性缺失（对话语义断裂、口型不匹配）、物理推理薄弱（违背物理常识）、音高控制全面崩溃（无法准确生成指定音符/音阶）。

章节 05

AVGen-Bench评估分三个粒度：1. 感知层：评估基础质量（视频清晰度、时序连贯，音频频谱特性）；2. 语义层：评估生成内容与提示的语义对齐（对象、动作、音视频匹配）；3. 可控性层：评估对细粒度指令的响应（如调整雨声大小、演奏速度）。

章节 06

启示：当前技术重美学轻语义，需谨慎用于需精确语义控制的场景（如广告品牌展示、教育知识点）。未来方向：提升模型细粒度语义遵循能力，尤其在音高控制、物理规律等领域突破。团队已开源AVGen-Bench资源加速社区协作。