正文

Foley-Omni：统一多模态音频生成模型，从任务级合成到完整视频音轨生成

南京大学语音技术实验室开源的Foley-Omni模型，实现了视频到音轨（V2ST）的统一生成，能够同时合成语音、音效和背景音乐，标志着多模态音频生成进入新阶段。

多模态生成音频生成视频音轨语音合成音效生成音乐生成扩散模型V2STNJU-Speech

发布时间 2026/06/05 09:40最近活动 2026/06/05 09:50预计阅读 4 分钟

章节 01

导读 / 主楼：Foley-Omni：统一多模态音频生成模型，从任务级合成到完整视频音轨生成

章节 02

原作者与来源

原作者/维护者：NJU-Speech
来源平台：GitHub
原始标题：Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation
原始链接：https://github.com/NJU-Speech/Foley-Omni
来源发布时间/更新时间：2026-06-05

章节 03

项目背景与动机

视频内容创作长期以来面临一个核心挑战：如何为无声视频生成高质量、同步的完整音轨。传统的影视后期制作需要专业的拟音师（Foley Artist） painstakingly 地为每个场景录制匹配的音效、对白和背景音乐，这个过程耗时且成本高昂。随着生成式AI的兴起，自动化的音频生成技术逐渐成熟，但大多数现有方案只能处理单一任务——要么生成语音，要么合成音效，要么创作音乐，鲜有能够统一处理这三类音频元素的端到端解决方案。

南京大学语音技术实验室（NJU-Speech）推出的Foley-Omni正是为了填补这一空白。该项目不仅仅是一个音频生成工具，而是一个统一的多模态生成框架，能够从视频和文本条件出发，联合生成同步的语音、音效和音乐，实现真正的"视频到音轨"（Video-to-Soundtrack, V2ST）生成。

章节 04

技术架构概览

Foley-Omni的核心架构融合了当前最先进的视觉-音频对齐技术和扩散Transformer（Diffusion Transformer, DiT）设计。模型整体基于Wan2.2-TI2V-5B的架构基础进行扩展，这是一个在视频生成领域表现优异的扩散模型。

在音频编码方面，Foley-Omni采用了MMAudio项目开源的音频VAE（变分自编码器）和特征提取器。音频VAE负责将高维音频波形压缩到低维潜在空间，使扩散模型能够在更高效的表示上进行操作；而特征提取器则用于从输入视频中提取语义相关的视觉特征，作为音频生成的条件信号。

模型的关键创新在于其多模态融合机制。不同于简单的特征拼接，Foley-Omni设计了一个统一的条件编码器，能够同时处理文本提示（描述期望的音频内容）和视频帧序列，学习视觉内容与音频事件之间的细粒度对应关系。这种设计使得模型能够理解"画面中汽车在街道上驶过"应该对应"引擎声+轮胎摩擦声"，而不是随机生成不相关的环境音。

章节 05

核心能力：从单一任务到完整音轨

Foley-Omni最引人注目的特性是其灵活的任务支持能力。用户既可以使用它完成特定的音频生成子任务，也可以直接生成完整的视频音轨。

章节 06

单一任务模式

在单一任务模式下，Foley-Omni可以独立执行以下三类生成任务：

语音合成（Text-to-Speech）：给定文本内容和说话人特征描述，模型能够生成自然、富有表现力的语音。支持通过[WORDS]和[END_WORDS]标签包裹的语音内容块来精确控制对白内容。

音效生成（Sound Effect Generation）：通过[AUDIO_CAPTION]标签，用户可以描述期望的声学事件（如"雨声"、"玻璃破碎声"、"人群嘈杂声"），模型会生成对应的音效片段。

音乐创作（Music Composition）：使用[MUSIC]标签指定音乐风格、情绪、乐器配置和节奏，Foley-Omni能够生成与场景氛围匹配的背景音乐。

章节 07

视频到音轨模式（V2ST）

在完整的V2ST模式下，Foley-Omni接受视频输入和可选的文本提示，自动分析视频内容并生成包含以下三类元素的同步音轨：

场景对白：根据画面中的人物动作和口型（如果可见），生成合适的语音内容
环境音效：包括动作音效（脚步声、物体碰撞声）、环境背景音（风声、车流声、动物叫声）等
背景音乐：根据视频的整体情绪和节奏，生成风格匹配的背景音乐

这三类音频在时域上精确对齐，确保语音不会被音乐淹没，音效与视觉动作同步，整体听感协调统一。

章节 08

提示词格式与使用方式

Foley-Omni设计了一套结构化的提示词格式，使用户能够精确控制生成内容的各个方面。提示词由三个可选的块组成，每个块使用特定的标签界定：

[WORDS]对白内容[END_WORDS]
[AUDIO_CAPTION]音效描述[END_AUDIO_CAPTION]
[MUSIC]音乐描述[END_MUSIC]

例如，一个典型的提示词可能如下：

[WORDS]那辆车比我想象中开得更快。[END_WORDS]
[AUDIO_CAPTION]清晰、中性的英语口音，伴随着汽车在安静城市街道上驶过的声音。[END_AUDIO_CAPTION]

这种结构化格式不仅便于人类理解，也方便程序化生成和解析，为自动化视频音轨生成工作流奠定了基础。

Foley-Omni：统一多模态音频生成模型，从任务级合成到完整视频音轨生成

导读 / 主楼：Foley-Omni：统一多模态音频生成模型，从任务级合成到完整视频音轨生成

原作者与来源

项目背景与动机

技术架构概览

核心能力：从单一任务到完整音轨

单一任务模式

视频到音轨模式（V2ST）

提示词格式与使用方式

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎