Zing 论坛

正文

Foley-Omni:统一多模态音频生成模型,从任务级合成到完整视频音轨生成

南京大学语音技术实验室开源的Foley-Omni模型,实现了视频到音轨(V2ST)的统一生成,能够同时合成语音、音效和背景音乐,标志着多模态音频生成进入新阶段。

多模态生成音频生成视频音轨语音合成音效生成音乐生成扩散模型V2STNJU-Speech
发布时间 2026/06/05 09:40最近活动 2026/06/05 09:50预计阅读 4 分钟
Foley-Omni:统一多模态音频生成模型,从任务级合成到完整视频音轨生成
1

章节 01

导读 / 主楼:Foley-Omni:统一多模态音频生成模型,从任务级合成到完整视频音轨生成

南京大学语音技术实验室开源的Foley-Omni模型,实现了视频到音轨(V2ST)的统一生成,能够同时合成语音、音效和背景音乐,标志着多模态音频生成进入新阶段。

2

章节 02

原作者与来源

  • 原作者/维护者:NJU-Speech
  • 来源平台:GitHub
  • 原始标题:Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation
  • 原始链接:https://github.com/NJU-Speech/Foley-Omni
  • 来源发布时间/更新时间:2026-06-05
3

章节 03

项目背景与动机

视频内容创作长期以来面临一个核心挑战:如何为无声视频生成高质量、同步的完整音轨。传统的影视后期制作需要专业的拟音师(Foley Artist) painstakingly 地为每个场景录制匹配的音效、对白和背景音乐,这个过程耗时且成本高昂。随着生成式AI的兴起,自动化的音频生成技术逐渐成熟,但大多数现有方案只能处理单一任务——要么生成语音,要么合成音效,要么创作音乐,鲜有能够统一处理这三类音频元素的端到端解决方案。

南京大学语音技术实验室(NJU-Speech)推出的Foley-Omni正是为了填补这一空白。该项目不仅仅是一个音频生成工具,而是一个统一的多模态生成框架,能够从视频和文本条件出发,联合生成同步的语音、音效和音乐,实现真正的"视频到音轨"(Video-to-Soundtrack, V2ST)生成。

4

章节 04

技术架构概览

Foley-Omni的核心架构融合了当前最先进的视觉-音频对齐技术和扩散Transformer(Diffusion Transformer, DiT)设计。模型整体基于Wan2.2-TI2V-5B的架构基础进行扩展,这是一个在视频生成领域表现优异的扩散模型。

在音频编码方面,Foley-Omni采用了MMAudio项目开源的音频VAE(变分自编码器)和特征提取器。音频VAE负责将高维音频波形压缩到低维潜在空间,使扩散模型能够在更高效的表示上进行操作;而特征提取器则用于从输入视频中提取语义相关的视觉特征,作为音频生成的条件信号。

模型的关键创新在于其多模态融合机制。不同于简单的特征拼接,Foley-Omni设计了一个统一的条件编码器,能够同时处理文本提示(描述期望的音频内容)和视频帧序列,学习视觉内容与音频事件之间的细粒度对应关系。这种设计使得模型能够理解"画面中汽车在街道上驶过"应该对应"引擎声+轮胎摩擦声",而不是随机生成不相关的环境音。

5

章节 05

核心能力:从单一任务到完整音轨

Foley-Omni最引人注目的特性是其灵活的任务支持能力。用户既可以使用它完成特定的音频生成子任务,也可以直接生成完整的视频音轨。

6

章节 06

单一任务模式

在单一任务模式下,Foley-Omni可以独立执行以下三类生成任务:

语音合成(Text-to-Speech):给定文本内容和说话人特征描述,模型能够生成自然、富有表现力的语音。支持通过[WORDS][END_WORDS]标签包裹的语音内容块来精确控制对白内容。

音效生成(Sound Effect Generation):通过[AUDIO_CAPTION]标签,用户可以描述期望的声学事件(如"雨声"、"玻璃破碎声"、"人群嘈杂声"),模型会生成对应的音效片段。

音乐创作(Music Composition):使用[MUSIC]标签指定音乐风格、情绪、乐器配置和节奏,Foley-Omni能够生成与场景氛围匹配的背景音乐。

7

章节 07

视频到音轨模式(V2ST)

在完整的V2ST模式下,Foley-Omni接受视频输入和可选的文本提示,自动分析视频内容并生成包含以下三类元素的同步音轨:

  1. 场景对白:根据画面中的人物动作和口型(如果可见),生成合适的语音内容
  2. 环境音效:包括动作音效(脚步声、物体碰撞声)、环境背景音(风声、车流声、动物叫声)等
  3. 背景音乐:根据视频的整体情绪和节奏,生成风格匹配的背景音乐

这三类音频在时域上精确对齐,确保语音不会被音乐淹没,音效与视觉动作同步,整体听感协调统一。

8

章节 08

提示词格式与使用方式

Foley-Omni设计了一套结构化的提示词格式,使用户能够精确控制生成内容的各个方面。提示词由三个可选的块组成,每个块使用特定的标签界定:

[WORDS]对白内容[END_WORDS]
[AUDIO_CAPTION]音效描述[END_AUDIO_CAPTION]
[MUSIC]音乐描述[END_MUSIC]

例如,一个典型的提示词可能如下:

[WORDS]那辆车比我想象中开得更快。[END_WORDS]
[AUDIO_CAPTION]清晰、中性的英语口音,伴随着汽车在安静城市街道上驶过的声音。[END_AUDIO_CAPTION]

这种结构化格式不仅便于人类理解,也方便程序化生成和解析,为自动化视频音轨生成工作流奠定了基础。