正文

VeRL-Omni：面向扩散模型与全模态生成模型的强化学习训练框架

VeRL-Omni 是一个专为多模态生成模型设计的强化学习训练框架，支持扩散模型（如 Qwen-Image、Wan2.2）和全模态模型（如 Qwen3-Omni）的 RL 后训练，基于 vLLM-Omni 实现高效推理，并提供多种 RL 算法实现与异步奖励计算机制。

VeRL-Omni强化学习扩散模型多模态生成RL训练框架Qwen-ImagevLLM-OmniFlowGRPO视频生成昇腾NPU

发布时间 2026/06/12 17:16最近活动 2026/06/12 17:21预计阅读 3 分钟

章节 01

导读

VeRL-Omni是专为多模态生成模型设计的强化学习训练框架，支持扩散模型（如Qwen-Image、Wan2.2）和全模态模型（如Qwen3-Omni）的RL后训练。基于vLLM-Omni实现高效推理，提供多种RL算法与异步奖励计算机制。项目由verl-project维护，开源于GitHub，发布时间为2026-06-12。

章节 02

背景：多模态生成模型RL训练的独特挑战

LLM的RLHF/DPO技术已证明能提升模型对齐性，但多模态生成模型（图像/视频/音频生成、全模态理解）架构差异大（扩散模型多步迭代、流匹配/自回归策略不同），现有RL框架难以适配：推理过程复杂、奖励计算延迟高、模态预处理流程差异大，催生专门化框架需求。

章节 03

核心架构与技术特性

优化推理后端：采用vLLM-Omni（vLLM多模态扩展），实现高吞吐量样本生成；
异步奖励服务：支持HTTP Scorer接口，奖励计算与rollout重叠，减少等待时间；
模块化训练后端：支持VeOmni/FSDP2，可组合并行策略（USP/TP/DP）；
稳定性增强：引入rollout校正、确定性rollout等机制，解决扩散模型RL训练不稳定问题。

章节 04

支持的模型与算法矩阵

Qwen-Image（文本到图像）：FlowGRPO（CPS/SDE）、MixGRPO、GRPO-Guard、DiffusionNFT、DPO（均已验证）；
Wan2.2（文本到视频）：DanceGRPO（已验证）；
SD3.5（文本到图像）：DPO（已验证）；
LTX2.3（文本到视频+音频）：FlowGRPO（开发中）；
BAGEL（统一理解+生成）：FlowGRPO（开发中）；
HunyuanImage-3.0：MixGRPO、SRPO（规划中）；
Qwen3-Omni-Thinker（全模态）：GSPO（开发中）。

章节 05

性能优势与国产硬件支持

性能提升：Qwen-Image FlowGRPO测试中，端到端吞吐量比diffusers实现高25%（源于vLLM-Omni推理、FSDP2训练、异步奖励计算等优化）；
国产硬件支持：原生支持昇腾NPU，提供快速入门指南，降低国产芯片上多模态RL训练门槛。

章节 06

应用场景与实践意义

研究人员：稳定高效的基线，降低复现门槛；
开发者：模块化架构易集成新模型/奖励函数，文档示例丰富；
企业用户：性能优化与昇腾支持降低训练成本，异步奖励计算适配外部评估场景。

章节 07

总结与未来展望

VeRL-Omni解决了多模态生成模型RL训练的独特挑战，提供全方位支持。丰富的模型算法矩阵、性能优势及国产硬件兼容使其成为该领域重要工具。项目与verl、vLLM-Omni生态集成，持续更新（如新增DiffusionNFT/DPO），将在多模态AI应用中发挥关键作用。

VeRL-Omni：面向扩散模型与全模态生成模型的强化学习训练框架

导读

导读

背景：多模态生成模型RL训练的独特挑战

背景：多模态生成模型RL训练的独特挑战

核心架构与技术特性

核心架构与技术特性

支持的模型与算法矩阵

支持的模型与算法矩阵

性能优势与国产硬件支持

性能优势与国产硬件支持

应用场景与实践意义

应用场景与实践意义

总结与未来展望

总结与未来展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎