# Foley-Omni：统一多模态音频生成模型，从任务级合成到完整视频音轨生成

> 南京大学语音技术实验室开源的Foley-Omni模型，实现了视频到音轨（V2ST）的统一生成，能够同时合成语音、音效和背景音乐，标志着多模态音频生成进入新阶段。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-05T01:40:37.000Z
- 最近活动: 2026-06-05T01:50:03.764Z
- 热度: 161.8
- 关键词: 多模态生成, 音频生成, 视频音轨, 语音合成, 音效生成, 音乐生成, 扩散模型, V2ST, NJU-Speech
- 页面链接: https://www.zingnex.cn/forum/thread/foley-omni-37306409
- Canonical: https://www.zingnex.cn/forum/thread/foley-omni-37306409
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：NJU-Speech
- 来源平台：GitHub
- 原始标题：Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation
- 原始链接：https://github.com/NJU-Speech/Foley-Omni
- 来源发布时间/更新时间：2026-06-05

## 项目背景与动机

视频内容创作长期以来面临一个核心挑战：如何为无声视频生成高质量、同步的完整音轨。传统的影视后期制作需要专业的拟音师（Foley Artist） painstakingly 地为每个场景录制匹配的音效、对白和背景音乐，这个过程耗时且成本高昂。随着生成式AI的兴起，自动化的音频生成技术逐渐成熟，但大多数现有方案只能处理单一任务——要么生成语音，要么合成音效，要么创作音乐，鲜有能够统一处理这三类音频元素的端到端解决方案。

南京大学语音技术实验室（NJU-Speech）推出的Foley-Omni正是为了填补这一空白。该项目不仅仅是一个音频生成工具，而是一个统一的多模态生成框架，能够从视频和文本条件出发，联合生成同步的语音、音效和音乐，实现真正的"视频到音轨"（Video-to-Soundtrack, V2ST）生成。

## 技术架构概览

Foley-Omni的核心架构融合了当前最先进的视觉-音频对齐技术和扩散Transformer（Diffusion Transformer, DiT）设计。模型整体基于Wan2.2-TI2V-5B的架构基础进行扩展，这是一个在视频生成领域表现优异的扩散模型。

在音频编码方面，Foley-Omni采用了MMAudio项目开源的音频VAE（变分自编码器）和特征提取器。音频VAE负责将高维音频波形压缩到低维潜在空间，使扩散模型能够在更高效的表示上进行操作；而特征提取器则用于从输入视频中提取语义相关的视觉特征，作为音频生成的条件信号。

模型的关键创新在于其多模态融合机制。不同于简单的特征拼接，Foley-Omni设计了一个统一的条件编码器，能够同时处理文本提示（描述期望的音频内容）和视频帧序列，学习视觉内容与音频事件之间的细粒度对应关系。这种设计使得模型能够理解"画面中汽车在街道上驶过"应该对应"引擎声+轮胎摩擦声"，而不是随机生成不相关的环境音。

## 核心能力：从单一任务到完整音轨

Foley-Omni最引人注目的特性是其灵活的任务支持能力。用户既可以使用它完成特定的音频生成子任务，也可以直接生成完整的视频音轨。

### 单一任务模式

在单一任务模式下，Foley-Omni可以独立执行以下三类生成任务：

**语音合成（Text-to-Speech）**：给定文本内容和说话人特征描述，模型能够生成自然、富有表现力的语音。支持通过`[WORDS]`和`[END_WORDS]`标签包裹的语音内容块来精确控制对白内容。

**音效生成（Sound Effect Generation）**：通过`[AUDIO_CAPTION]`标签，用户可以描述期望的声学事件（如"雨声"、"玻璃破碎声"、"人群嘈杂声"），模型会生成对应的音效片段。

**音乐创作（Music Composition）**：使用`[MUSIC]`标签指定音乐风格、情绪、乐器配置和节奏，Foley-Omni能够生成与场景氛围匹配的背景音乐。

### 视频到音轨模式（V2ST）

在完整的V2ST模式下，Foley-Omni接受视频输入和可选的文本提示，自动分析视频内容并生成包含以下三类元素的同步音轨：

1. **场景对白**：根据画面中的人物动作和口型（如果可见），生成合适的语音内容
2. **环境音效**：包括动作音效（脚步声、物体碰撞声）、环境背景音（风声、车流声、动物叫声）等
3. **背景音乐**：根据视频的整体情绪和节奏，生成风格匹配的背景音乐

这三类音频在时域上精确对齐，确保语音不会被音乐淹没，音效与视觉动作同步，整体听感协调统一。

## 提示词格式与使用方式

Foley-Omni设计了一套结构化的提示词格式，使用户能够精确控制生成内容的各个方面。提示词由三个可选的块组成，每个块使用特定的标签界定：

```
[WORDS]对白内容[END_WORDS]
[AUDIO_CAPTION]音效描述[END_AUDIO_CAPTION]
[MUSIC]音乐描述[END_MUSIC]
```

例如，一个典型的提示词可能如下：

```
[WORDS]那辆车比我想象中开得更快。[END_WORDS]
[AUDIO_CAPTION]清晰、中性的英语口音，伴随着汽车在安静城市街道上驶过的声音。[END_AUDIO_CAPTION]
```

这种结构化格式不仅便于人类理解，也方便程序化生成和解析，为自动化视频音轨生成工作流奠定了基础。

## 预提取视觉特征

为了提高推理效率，Foley-Omni支持预提取视觉特征。项目提供了`convert_memmap_to_npy.py`脚本，可以从输入视频中批量提取CLIP视觉特征和同步特征（Sync Features）。这些预计算的特征可以在多次生成实验中复用，避免重复进行昂贵的视觉编码计算。

特征提取流程设计简洁：输入JSON文件包含视频路径列表，脚本为每个视频生成对应的特征文件，并输出更新后的JSON清单，其中包含`clip_feature_path`和`sync_feature_path`字段。生成的特征文件以NumPy数组格式存储，便于高效读取。

## 当前局限与未来计划

根据项目README，当前公开的checkpoint主要针对**10秒以内**的短视频优化。对于更长的视频内容，用户需要将其分割成多个片段分别处理，然后在后期进行拼接。这一限制源于训练数据的时长分布和计算资源的平衡考量。

项目团队已经公布了明确的路线图：

- ✅ 已发布模型权重
- ✅ 已发布推理代码
- ⏳ 即将发布V2ST-Bench评测基准
- ⏳ 即将发布Hugging Face在线演示

V2ST-Bench的发布尤其值得期待，这将为视频到音轨生成任务提供标准化的评估基准，推动整个领域的研究进展。

## 技术依赖与部署

Foley-Omni的部署需要满足以下环境要求：

- Python 3.10
- CUDA 12.4
- PyTorch 2.6.0
- FlashAttention 2.7.4.post1

FlashAttention的使用对于处理长序列视频-音频对齐至关重要，它通过IO感知的注意力算法显著降低了显存占用，使得在消费级GPU上运行大规模多模态模型成为可能。项目提供了详细的安装脚本和checkpoint下载脚本，降低了上手门槛。

## 学术贡献与致谢

Foley-Omni的研究成果已提交至arXiv（论文编号2606.03672），项目页面和演示视频也已上线。在技术实现上，该项目站在巨人的肩膀上，特别致谢了MMAudio项目的音频VAE和特征提取器，以及Ovi和Wan2.2项目的扩散Transformer设计和实现。

这种开放、协作的研究文化正是推动多模态AI快速发展的关键动力。Foley-Omni不仅提供了模型权重和推理代码，还计划发布评测基准和在线演示，为研究社区提供了完整的工具链。

## 应用前景与思考

Foley-Omni的出现标志着AI音频生成从"单任务工具"向"端到端解决方案"的重要转变。对于内容创作者而言，这意味着：

- **独立创作者**可以用有限预算为视频添加专业级音轨
- **游戏开发者**可以快速为过场动画生成定制化音频
- **影视后期**可以将AI生成的音轨作为初版参考，大幅缩短迭代周期
- **无障碍技术**可以为静音视频自动生成描述性音频，帮助视障用户理解内容

然而，技术能力的提升也带来了新的思考。当AI能够自动生成高度逼真的音轨时，如何确保内容的真实性标注？如何防止深度伪造（Deepfake）技术的滥用？这些问题需要技术社区、平台方和监管机构共同面对。

Foley-Omni作为一个开源项目，为这些问题提供了技术基础，同时也呼唤着相应的伦理框架和使用规范。