Zing 论坛

正文

VeRL-Omni:面向扩散模型与全模态生成模型的强化学习训练框架

VeRL-Omni 是一个专为多模态生成模型设计的强化学习训练框架,支持扩散模型(如 Qwen-Image、Wan2.2)和全模态模型(如 Qwen3-Omni)的 RL 后训练,基于 vLLM-Omni 实现高效推理,并提供多种 RL 算法实现与异步奖励计算机制。

VeRL-Omni强化学习扩散模型多模态生成RL训练框架Qwen-ImagevLLM-OmniFlowGRPO视频生成昇腾NPU
发布时间 2026/06/12 17:16最近活动 2026/06/12 17:21预计阅读 3 分钟
VeRL-Omni:面向扩散模型与全模态生成模型的强化学习训练框架
1

章节 01

导读

导读

VeRL-Omni是专为多模态生成模型设计的强化学习训练框架,支持扩散模型(如Qwen-Image、Wan2.2)和全模态模型(如Qwen3-Omni)的RL后训练。基于vLLM-Omni实现高效推理,提供多种RL算法与异步奖励计算机制。项目由verl-project维护,开源于GitHub,发布时间为2026-06-12。

2

章节 02

背景:多模态生成模型RL训练的独特挑战

背景:多模态生成模型RL训练的独特挑战

LLM的RLHF/DPO技术已证明能提升模型对齐性,但多模态生成模型(图像/视频/音频生成、全模态理解)架构差异大(扩散模型多步迭代、流匹配/自回归策略不同),现有RL框架难以适配:推理过程复杂、奖励计算延迟高、模态预处理流程差异大,催生专门化框架需求。

3

章节 03

核心架构与技术特性

核心架构与技术特性

  1. 优化推理后端:采用vLLM-Omni(vLLM多模态扩展),实现高吞吐量样本生成;
  2. 异步奖励服务:支持HTTP Scorer接口,奖励计算与rollout重叠,减少等待时间;
  3. 模块化训练后端:支持VeOmni/FSDP2,可组合并行策略(USP/TP/DP);
  4. 稳定性增强:引入rollout校正、确定性rollout等机制,解决扩散模型RL训练不稳定问题。
4

章节 04

支持的模型与算法矩阵

支持的模型与算法矩阵

  • Qwen-Image(文本到图像):FlowGRPO(CPS/SDE)、MixGRPO、GRPO-Guard、DiffusionNFT、DPO(均已验证);
  • Wan2.2(文本到视频):DanceGRPO(已验证);
  • SD3.5(文本到图像):DPO(已验证);
  • LTX2.3(文本到视频+音频):FlowGRPO(开发中);
  • BAGEL(统一理解+生成):FlowGRPO(开发中);
  • HunyuanImage-3.0:MixGRPO、SRPO(规划中);
  • Qwen3-Omni-Thinker(全模态):GSPO(开发中)。
5

章节 05

性能优势与国产硬件支持

性能优势与国产硬件支持

  • 性能提升:Qwen-Image FlowGRPO测试中,端到端吞吐量比diffusers实现高25%(源于vLLM-Omni推理、FSDP2训练、异步奖励计算等优化);
  • 国产硬件支持:原生支持昇腾NPU,提供快速入门指南,降低国产芯片上多模态RL训练门槛。
6

章节 06

应用场景与实践意义

应用场景与实践意义

  • 研究人员:稳定高效的基线,降低复现门槛;
  • 开发者:模块化架构易集成新模型/奖励函数,文档示例丰富;
  • 企业用户:性能优化与昇腾支持降低训练成本,异步奖励计算适配外部评估场景。
7

章节 07

总结与未来展望

总结与未来展望

VeRL-Omni解决了多模态生成模型RL训练的独特挑战,提供全方位支持。丰富的模型算法矩阵、性能优势及国产硬件兼容使其成为该领域重要工具。项目与verl、vLLM-Omni生态集成,持续更新(如新增DiffusionNFT/DPO),将在多模态AI应用中发挥关键作用。