# VeRL-Omni：面向扩散模型与全模态生成模型的强化学习训练框架

> VeRL-Omni 是一个专为多模态生成模型设计的强化学习训练框架，支持扩散模型（如 Qwen-Image、Wan2.2）和全模态模型（如 Qwen3-Omni）的 RL 后训练，基于 vLLM-Omni 实现高效推理，并提供多种 RL 算法实现与异步奖励计算机制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-12T09:16:40.000Z
- 最近活动: 2026-06-12T09:21:00.257Z
- 热度: 154.9
- 关键词: VeRL-Omni, 强化学习, 扩散模型, 多模态生成, RL训练框架, Qwen-Image, vLLM-Omni, FlowGRPO, 视频生成, 昇腾NPU
- 页面链接: https://www.zingnex.cn/forum/thread/verl-omni
- Canonical: https://www.zingnex.cn/forum/thread/verl-omni
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：verl-project
- 来源平台：GitHub
- 原始标题：verl-omni
- 原始链接：https://github.com/verl-project/verl-omni
- 来源发布时间/更新时间：2026-06-12T09:16:40Z

## 背景：为什么多模态生成模型需要专门的 RL 训练框架

随着大型语言模型（LLM）的快速发展，强化学习（RL）后训练已成为提升模型能力的关键环节。从 ChatGPT 到 Claude，RLHF（基于人类反馈的强化学习）和 DPO（直接偏好优化）等技术已被证明能够显著改善模型的对齐性和输出质量。然而，当视线转向多模态生成模型——包括图像生成、视频合成、音频生成以及全模态理解模型——情况变得复杂得多。

多模态生成模型与纯文本 LLM 在架构上存在本质差异。扩散模型（Diffusion Models）通过逐步去噪的过程生成数据，流匹配模型（Flow Matching）使用不同的数学框架建模数据分布，而自回归生成模型则采用 token-by-token 的生成策略。这些差异不仅体现在模型结构上，更深刻地影响着输入输出模式、计算特性和运行时瓶颈。

现有的 RL 训练框架大多针对文本 LLM 设计，难以高效支持多模态生成模型的独特需求。例如，扩散模型的推理过程涉及多步迭代，每一步都需要前向传播；多模态模型的奖励计算往往需要调用视觉感知模型或人工评估接口，延迟较高；不同模态的数据表示和预处理流程也大相径庭。这些因素共同催生了对专门化训练框架的需求。

## VeRL-Omni 项目概述

VeRL-Omni 应运而生，它是一个面向多模态生成模型的通用强化学习训练框架，建立在 verl 项目的基础之上。该项目最初源于 verl 中的多模态生成 RL 工作，如今已独立发展成为一个专注且活跃的开源项目。

项目的核心定位非常清晰：为三类生成模型家族提供 RL 后训练支持：

1. **扩散生成模型**：用于图像、视频和音频生成，如 Qwen-Image、Wan2.2、SD3.5 等
2. **统一多模态理解与生成模型**：能够同时处理理解和生成任务，如 BAGEL、HunyuanImage-3.0
3. **全模态模型**：能够联合处理文本、图像、音频和视频，如 Qwen3-Omni

这种分层覆盖的策略使得 VeRL-Omni 能够服务从单一模态生成到复杂多模态交互的广泛应用场景。

## 核心架构与技术特性

VeRL-Omni 的架构设计围绕多模态生成 RL 的核心挑战展开，在多个维度上提供了针对性的优化方案。

### 优化的推理后端：vLLM-Omni

项目采用 vLLM-Omni 作为推理后端，这是 vLLM 项目的多模态扩展版本。vLLM 以其高效的PagedAttention机制和连续批处理技术闻名，而 vLLM-Omni 在此基础上增加了对多模态生成的原生支持。这意味着在 RL 训练的 rollout 阶段，VeRL-Omni 能够实现高吞吐量的样本生成，这对于需要大量交互数据的 RL 训练至关重要。

### 灵活且异步的多奖励服务

多模态生成任务的一个显著特点是奖励计算的复杂性。评估一张生成图像的质量可能需要调用 HPSv3 等美学评分模型，检查 OCR 准确性可能需要 GenRM-OCR，而综合评估则可能需要 UnifiedReward 等统一奖励模型。这些外部调用往往具有较高的延迟。

VeRL-Omni 通过支持 HTTP Scorer 接口和异步奖励计算机制来解决这一问题。在异步模式下，奖励计算可以与模型 rollout 重叠进行，显著减少训练流程中的等待时间，提升整体训练效率。

### 模块化的训练后端

项目支持多种训练后端，包括 VeOmni 和 FSDP2，并支持可组合的并行策略（USP/TP/DP）。这种模块化设计允许用户根据模型规模、硬件配置和训练目标灵活选择最适合的后端方案。对于大规模分布式训练，VeRL-Omni 提供了对数据并行、张量并行和序列并行等多种并行策略的支持。

### 稳定性增强工具

扩散模型的 RL 训练 notoriously 不稳定，容易出现模式崩溃、奖励黑客等问题。VeRL-Omni 引入了 rollout 校正机制、确定性 rollout/奖励/训练器等技术手段来提升训练稳定性。这些工具对于获得可复现、可靠的训练结果至关重要。

## 支持的模型与算法矩阵

VeRL-Omni 目前提供了丰富的模型和算法支持矩阵，展示了项目的活跃度和技术覆盖范围：

**Qwen-Image（文本到图像扩散模型）**：
- FlowGRPO（支持 CPS/SDE 变体）：已验证 ✅
- MixGRPO：已验证 ✅
- GRPO-Guard：已验证 ✅
- DiffusionNFT：已验证 ✅（2026年6月新增）
- DPO（直接偏好优化）：已验证 ✅（2026年6月新增）

**Wan2.2（文本到视频扩散模型）**：
- DanceGRPO：已验证 ✅

**SD3.5（文本到图像扩散模型）**：
- DPO：已验证 ✅

**LTX2.3（文本到视频+音频）**：
- FlowGRPO：开发中 🚧

**BAGEL（统一理解+生成）**：
- FlowGRPO：开发中 🚧

**HunyuanImage-3.0（统一理解+生成）**：
- MixGRPO、SRPO：规划中 📋

**Qwen3-Omni-Thinker（全模态）**：
- GSPO：开发中 🚧

这一矩阵清晰地展示了项目的技术路线图，从已成熟的扩散图像生成向视频、音频、统一多模态和全模态方向稳步扩展。

## 性能表现与竞争优势

VeRL-Omni 在性能方面展现出了显著优势。在 Qwen-Image FlowGRPO 的标准测试配置下，VeRL-Omni 相比基于 diffusers 的 flow_grpo 实现实现了约 25% 的端到端吞吐量提升。这一性能增益来源于多个层面的优化：

- **vLLM-Omni rollout**：更高效的多模态推理
- **FSDP2 训练器**：改进的分布式训练支持
- **重叠奖励计算**：异步奖励计算与 rollout 并行
- **整体架构优化**：减少不必要的内存拷贝和同步点

对于需要大规模 RL 训练的研究团队和企业来说，这种性能提升直接转化为训练成本的降低和实验迭代速度的加快。

## 对国产硬件的支持

值得注意的是，VeRL-Omni 还提供了对昇腾 NPU（Ascend NPU）的原生支持。这一特性对于使用国产 AI 芯片的用户和机构具有重要意义。项目提供了专门的昇腾 NPU 快速入门指南，涵盖从安装配置到 FlowGRPO 训练的完整流程，降低了在国产硬件上进行多模态 RL 训练的门槛。

## 应用场景与实践意义

VeRL-Omni 的发布为多模态 AI 领域带来了重要的实践价值：

**对于研究人员**：提供了一个稳定、高效的多模态 RL 训练基线，可以在此基础上探索新的算法和改进。项目提供的验证过的 recipes 降低了复现门槛。

**对于开发者**：模块化的架构设计使得集成新的模型、奖励函数和训练策略变得相对简单。清晰的文档和示例代码加速了上手过程。

**对于企业用户**：性能优化和昇腾 NPU 支持意味着可以在生产环境中更高效地进行模型微调和能力增强。异步奖励计算机制对于需要调用外部评估服务的场景尤为实用。

## 项目生态与未来展望

VeRL-Omni 并非孤立存在，它与更广泛的生态系统紧密相连。项目建立在 verl 的工程基础之上，与 vLLM-Omni 推理系统深度集成，并积极参与社区协作。开发团队在 GitHub 上公开了详细的路线图（RFC: Multi-modal Generation RL 2026Q2 Roadmap），展示了项目的长期规划。

从近期发布的 DiffusionNFT 和 Diffusion DPO 支持，到 Wan2.2 视频生成能力的加入，项目保持着活跃的更新节奏。这种持续演进的能力对于跟上快速发展的多模态 AI 领域至关重要。

## 总结

VeRL-Omni 代表了多模态生成模型 RL 训练领域的重要进展。它通过针对性的架构设计解决了扩散模型和全模态模型在 RL 训练中的独特挑战，提供了从推理优化到训练稳定性的全方位支持。丰富的模型支持矩阵、显著的性能优势以及对国产硬件的兼容，使其成为该领域值得关注和采用的开源工具。

随着多模态 AI 应用的不断深入，从文本生成图像到视频合成，从单一模态到全模态理解，VeRL-Omni 这样的专用训练框架将在模型能力提升中扮演越来越重要的角色。对于任何致力于多模态生成模型 RL 后训练的研究者和开发者来说，这都是一个值得深入探索的项目。