正文

腾讯混元开源 UniRL：统一多模态模型强化学习框架

腾讯混元团队开源 UniRL，一个支持扩散模型、自回归模型和统一模型的通用强化学习训练框架，实现了跨模态的 RL 后训练统一范式。

UniRL腾讯混元多模态模型强化学习扩散模型大语言模型RLHFFlowDPPODRPO开源框架

发布时间 2026/06/09 15:59最近活动 2026/06/09 16:19预计阅读 2 分钟

章节 01

导读：腾讯混元开源UniRL——统一多模态模型的强化学习训练框架

腾讯混元团队开源UniRL，这是一个支持扩散模型、自回归模型和统一模型的通用强化学习训练框架，旨在解决多模态领域中不同模型架构需独立开发RL训练方案的碎片化问题，实现跨模态RL后训练的统一范式。项目已在GitHub开源，为研究者和工程师提供高效的训练基础设施。

章节 02

当前多模态AI生态呈现高度碎片化特征：扩散模型用于图像/视频生成，自回归模型处理文本/视觉理解，统一模型融合两者能力，但每种模型类型需专门RL训练框架（如扩散模型需连续噪声空间策略优化，自回归模型依赖token级奖励计算）。这种分裂导致重复开发、资源浪费，阻碍跨模态技术迁移复用。

章节 03

UniRL核心设计理念是抽象通用RL循环（生成样本→评估奖励→计算优势→更新策略→同步权重），并通过分层可组合架构实现：

入口层：针对不同模型领域的训练入口（如train_diffusion、train_ar等）；
训练器层：对应不同模型的训练器（如DiffusionTrainer、ARTrainer）；
插件化组件层：rollout引擎、算法实现等；
分布式运行时层：基于Ray、FSDP等。支持的模型包括Stable Diffusion 3、Qwen-VL、HunyuanImage3等，并提出创新算法FlowDPPO（流匹配模型的PPO优化）和DRPO（缓解LLM RLHF模式崩溃）。

章节 04

UniRL技术亮点：

统一RL循环抽象：适用于所有支持模型类型；
灵活Rollout引擎：支持vLLM、SGLang等推理后端；
分布式训练：基于Ray支持数据并行、模型并行等；
奖励服务解耦：独立奖励服务支持多种后端（学习型、规则型、外部API）。训练模式通过Hydra配置系统提供四种入口（diffusion/ar/pe/unified_model），用户可通过简单命令启动训练（如python -m unirl.train_diffusion --config-name=diffusion/sd3_trainside）。

章节 05

UniRL开源的价值：

章节 06

UniRL实现了“一套代码，多种模型”的目标，是多模态模型RL训练框架的重要进步。未来路线图包括：

扩展算法覆盖（支持FLUX.2-Klein、HunyuanVideo等新模型）；
跨域迁移算法（FlowDPPO、DRPO扩展到更多模型）；
丰富奖励后端；
优化Rollout引擎效率。项目GitHub仓库：https://github.com/Tencent-Hunyuan/UniRL，官方文档及示例配置可通过相关链接获取。