Zing 论坛

正文

腾讯混元开源 UniRL:统一多模态模型强化学习框架

腾讯混元团队开源 UniRL,一个支持扩散模型、自回归模型和统一模型的通用强化学习训练框架,实现了跨模态的 RL 后训练统一范式。

UniRL腾讯混元多模态模型强化学习扩散模型大语言模型RLHFFlowDPPODRPO开源框架
发布时间 2026/06/09 15:59最近活动 2026/06/09 16:19预计阅读 2 分钟
腾讯混元开源 UniRL:统一多模态模型强化学习框架
1

章节 01

导读:腾讯混元开源UniRL——统一多模态模型的强化学习训练框架

腾讯混元团队开源UniRL,这是一个支持扩散模型、自回归模型和统一模型的通用强化学习训练框架,旨在解决多模态领域中不同模型架构需独立开发RL训练方案的碎片化问题,实现跨模态RL后训练的统一范式。项目已在GitHub开源,为研究者和工程师提供高效的训练基础设施。

2

章节 02

项目背景:多模态AI生态的碎片化痛点

当前多模态AI生态呈现高度碎片化特征:扩散模型用于图像/视频生成,自回归模型处理文本/视觉理解,统一模型融合两者能力,但每种模型类型需专门RL训练框架(如扩散模型需连续噪声空间策略优化,自回归模型依赖token级奖励计算)。这种分裂导致重复开发、资源浪费,阻碍跨模态技术迁移复用。

3

章节 03

核心设计:分层可组合架构与创新算法

UniRL核心设计理念是抽象通用RL循环(生成样本→评估奖励→计算优势→更新策略→同步权重),并通过分层可组合架构实现:

  1. 入口层:针对不同模型领域的训练入口(如train_diffusion、train_ar等);
  2. 训练器层:对应不同模型的训练器(如DiffusionTrainer、ARTrainer);
  3. 插件化组件层:rollout引擎、算法实现等;
  4. 分布式运行时层:基于Ray、FSDP等。 支持的模型包括Stable Diffusion 3、Qwen-VL、HunyuanImage3等,并提出创新算法FlowDPPO(流匹配模型的PPO优化)和DRPO(缓解LLM RLHF模式崩溃)。
4

章节 04

技术实现亮点与训练模式

UniRL技术亮点:

  • 统一RL循环抽象:适用于所有支持模型类型;
  • 灵活Rollout引擎:支持vLLM、SGLang等推理后端;
  • 分布式训练:基于Ray支持数据并行、模型并行等;
  • 奖励服务解耦:独立奖励服务支持多种后端(学习型、规则型、外部API)。 训练模式通过Hydra配置系统提供四种入口(diffusion/ar/pe/unified_model),用户可通过简单命令启动训练(如python -m unirl.train_diffusion --config-name=diffusion/sd3_trainside)。
5

章节 05

应用价值:降低门槛、促进迁移与加速落地

UniRL开源的价值:

  • 降低研究门槛:研究者无需重建基础设施,专注算法创新;
  • 促进技术迁移:LLM RL技术可迁移到扩散模型领域,反之亦然;
  • 加速产业落地:统一框架降低维护成本,适合企业多模型场景;
  • 推动统一模型发展:支持HunyuanImage3等统一模型训练。