章节 01
导读 / 主楼:Foley-Omni:统一多模态音频生成模型,从任务级合成到完整视频音轨生成
南京大学语音技术实验室开源的Foley-Omni模型,实现了视频到音轨(V2ST)的统一生成,能够同时合成语音、音效和背景音乐,标志着多模态音频生成进入新阶段。
正文
南京大学语音技术实验室开源的Foley-Omni模型,实现了视频到音轨(V2ST)的统一生成,能够同时合成语音、音效和背景音乐,标志着多模态音频生成进入新阶段。
章节 01
南京大学语音技术实验室开源的Foley-Omni模型,实现了视频到音轨(V2ST)的统一生成,能够同时合成语音、音效和背景音乐,标志着多模态音频生成进入新阶段。
章节 02
章节 03
视频内容创作长期以来面临一个核心挑战:如何为无声视频生成高质量、同步的完整音轨。传统的影视后期制作需要专业的拟音师(Foley Artist) painstakingly 地为每个场景录制匹配的音效、对白和背景音乐,这个过程耗时且成本高昂。随着生成式AI的兴起,自动化的音频生成技术逐渐成熟,但大多数现有方案只能处理单一任务——要么生成语音,要么合成音效,要么创作音乐,鲜有能够统一处理这三类音频元素的端到端解决方案。
南京大学语音技术实验室(NJU-Speech)推出的Foley-Omni正是为了填补这一空白。该项目不仅仅是一个音频生成工具,而是一个统一的多模态生成框架,能够从视频和文本条件出发,联合生成同步的语音、音效和音乐,实现真正的"视频到音轨"(Video-to-Soundtrack, V2ST)生成。
章节 04
Foley-Omni的核心架构融合了当前最先进的视觉-音频对齐技术和扩散Transformer(Diffusion Transformer, DiT)设计。模型整体基于Wan2.2-TI2V-5B的架构基础进行扩展,这是一个在视频生成领域表现优异的扩散模型。
在音频编码方面,Foley-Omni采用了MMAudio项目开源的音频VAE(变分自编码器)和特征提取器。音频VAE负责将高维音频波形压缩到低维潜在空间,使扩散模型能够在更高效的表示上进行操作;而特征提取器则用于从输入视频中提取语义相关的视觉特征,作为音频生成的条件信号。
模型的关键创新在于其多模态融合机制。不同于简单的特征拼接,Foley-Omni设计了一个统一的条件编码器,能够同时处理文本提示(描述期望的音频内容)和视频帧序列,学习视觉内容与音频事件之间的细粒度对应关系。这种设计使得模型能够理解"画面中汽车在街道上驶过"应该对应"引擎声+轮胎摩擦声",而不是随机生成不相关的环境音。
章节 05
Foley-Omni最引人注目的特性是其灵活的任务支持能力。用户既可以使用它完成特定的音频生成子任务,也可以直接生成完整的视频音轨。
章节 06
在单一任务模式下,Foley-Omni可以独立执行以下三类生成任务:
语音合成(Text-to-Speech):给定文本内容和说话人特征描述,模型能够生成自然、富有表现力的语音。支持通过[WORDS]和[END_WORDS]标签包裹的语音内容块来精确控制对白内容。
音效生成(Sound Effect Generation):通过[AUDIO_CAPTION]标签,用户可以描述期望的声学事件(如"雨声"、"玻璃破碎声"、"人群嘈杂声"),模型会生成对应的音效片段。
音乐创作(Music Composition):使用[MUSIC]标签指定音乐风格、情绪、乐器配置和节奏,Foley-Omni能够生成与场景氛围匹配的背景音乐。
章节 07
在完整的V2ST模式下,Foley-Omni接受视频输入和可选的文本提示,自动分析视频内容并生成包含以下三类元素的同步音轨:
这三类音频在时域上精确对齐,确保语音不会被音乐淹没,音效与视觉动作同步,整体听感协调统一。
章节 08
Foley-Omni设计了一套结构化的提示词格式,使用户能够精确控制生成内容的各个方面。提示词由三个可选的块组成,每个块使用特定的标签界定:
[WORDS]对白内容[END_WORDS]
[AUDIO_CAPTION]音效描述[END_AUDIO_CAPTION]
[MUSIC]音乐描述[END_MUSIC]
例如,一个典型的提示词可能如下:
[WORDS]那辆车比我想象中开得更快。[END_WORDS]
[AUDIO_CAPTION]清晰、中性的英语口音,伴随着汽车在安静城市街道上驶过的声音。[END_AUDIO_CAPTION]
这种结构化格式不仅便于人类理解,也方便程序化生成和解析,为自动化视频音轨生成工作流奠定了基础。