# 腾讯混元开源 UniRL：统一多模态模型强化学习框架

> 腾讯混元团队开源 UniRL，一个支持扩散模型、自回归模型和统一模型的通用强化学习训练框架，实现了跨模态的 RL 后训练统一范式。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-09T07:59:25.000Z
- 最近活动: 2026-06-09T08:19:06.282Z
- 热度: 145.7
- 关键词: UniRL, 腾讯混元, 多模态模型, 强化学习, 扩散模型, 大语言模型, RLHF, FlowDPPO, DRPO, 开源框架
- 页面链接: https://www.zingnex.cn/forum/thread/unirl
- Canonical: https://www.zingnex.cn/forum/thread/unirl
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Tencent-Hunyuan
- 来源平台：github
- 原始标题：UniRL
- 原始链接：https://github.com/Tencent-Hunyuan/UniRL
- 来源发布时间/更新时间：2026-06-09T07:59:25Z

# 腾讯混元开源 UniRL：统一多模态模型强化学习框架\n\n大型语言模型的后训练（post-training）阶段已经证明了强化学习（RL）在提升模型能力方面的巨大潜力。然而，当我们将视野扩展到多模态领域——包括图像生成、视频合成、视觉语言理解等——每种模型架构往往需要独立开发 RL 训练方案，导致重复造轮子和资源浪费。腾讯混元团队近期开源的 **UniRL** 项目，正是为解决这一痛点而生。\n\n## 原作者与来源\n\n- **原作者/维护者**：腾讯混元团队（Tencent Hunyuan）\n- **来源平台**：GitHub\n- **原始标题**：UniRL: A Reinforcement Learning Framework for Unified Multimodal Models\n- **原始链接**：https://github.com/Tencent-Hunyuan/UniRL\n- **发布时间**：2026年6月\n\n## 项目背景与核心问题\n\n当前的多模态 AI 生态呈现出高度碎片化的特征。扩散模型（Diffusion Models）用于图像和视频生成，自回归模型（Autoregressive Models）处理文本和视觉理解任务，而新兴的统一模型（Unified Models）则试图融合两者的能力。每种模型类型通常需要专门的 RL 训练框架：\n\n- 扩散模型需要针对连续噪声空间设计的策略优化算法\n- 自回归模型依赖基于 token 级别的奖励计算和策略更新\n- 统一模型则面临更复杂的架构协调挑战\n\n这种分裂导致研究者和工程师不得不为每种模型维护独立的训练流水线，增加了开发成本，也阻碍了跨模态技术的迁移和复用。\n\n## UniRL 的核心设计理念\n\nUniRL 的核心洞察在于：**尽管多模态模型在架构和输出空间上差异巨大，但强化学习的核心循环是通用的**——生成样本、评估奖励、计算优势、更新策略、同步权重。UniRL 将这一通用循环抽象为可复用的基础设施层，同时通过模块化设计支持不同模型领域的特殊需求。\n\n### 分层可组合架构\n\nUniRL 采用分层架构设计，主要包含以下层次：\n\n1. **入口层（Entrypoints）**：提供针对不同模型领域的训练入口\n   - `train_diffusion`：用于扩散模型训练\n   - `train_ar`：用于自回归模型（LLM/VLM）训练\n   - `train_pe`：用于提示增强器（Prompt Enhancer）训练\n   - `train_unified_model`：用于统一模型训练\n\n2. **训练器层（Trainers）**：每个入口对应专门的训练器实现\n   - `DiffusionTrainer`：处理连续噪声空间的策略优化\n   - `ARTrainer`：处理离散 token 空间的 RL\n   - `PETrainer`：协调 AR 重写器与扩散奖励的交互\n   - `UnifiedModelTrainer`：管理混合架构的联合训练\n\n3. **插件化组件层**：包括 rollout 引擎、算法实现、模型封装、奖励服务等\n\n4. **分布式运行时层**：基于 Ray DevicePool、FSDP、传输队列（TQ）和 LoRA/全权重同步机制\n\n这种设计使得 UniRL 能够像搭积木一样组合不同组件，支持从单卡调试到大规模分布式训练的无缝扩展。\n\n## 支持的模型与算法\n\nUniRL 目前支持广泛的模型家族，涵盖图像、视频、文本和多模态领域：\n\n### 扩散模型\n- Stable Diffusion 3 / 3.5（文本到图像）\n- Qwen-Image（文本到图像）\n- FLUX.2-Klein（文本到图像）\n- WAN 2.1 / 2.2（文本/图像到视频）\n- HunyuanVideo 1.0 / 1.5（文本到视频）\n\n### 自回归模型\n- Qwen-VL（视觉语言模型）\n- Qwen3（大语言模型）\n\n### 统一模型\n- HunyuanImage3（自回归 + 扩散统一架构）\n- Bagel（统一生成模型）\n\n### 团队提出的创新算法\n\nUniRL 不仅提供基础设施，还包含腾讯混元团队提出的两种创新 RL 算法：\n\n**FlowDPPO**：专为流匹配模型（Flow Matching Models）设计的近端策略优化算法。传统 PPO 在扩散/流模型上难以直接应用，因为生成过程涉及连续噪声空间的去噪轨迹。FlowDPPO 引入了基于散度（divergence）的信任区域掩码机制，能够在保持训练稳定性的同时有效优化流模型的输出质量。\n\n**DRPO（Divergence-Regularized Policy Optimization）**：针对大语言模型 RL 的散度正则化重新思考。DRPO 采用平滑的优势加权二次正则器，在 token 级别实现更精细的策略更新，有效缓解了传统 RLHF 中常见的模式崩溃（mode collapse）问题。\n\n此外，UniRL 还集成了社区验证的参考算法，包括 GRPO、DiffusionNFT、DanceGRPO 和 MixGRPO。\n\n## 训练模式与使用方式\n\nUniRL 通过 Hydra 配置系统提供四种训练模式，每种模式都有独立的配置桶和入口脚本：\n\n| 领域 | 训练目标 | 入口脚本 | 示例配置 |\n|------|---------|---------|---------|\n| diffusion/ | 图像/视频扩散模型 | train_diffusion | diffusion/sd3_sglang_rollout_colocate |\n| ar/ | 自回归模型（VLM + LLM） | train_ar | ar/qwen_vl_grpo_geo3k_mc_4x8 |\n| pe/ | 提示增强器 | train_pe | pe/pe_sglang_full_pickscore |\n| unified_model/ | 统一 AR + 扩散模型 | train_unified_model | unified_model/hi3_vllmomni |\n\n用户可以通过简单的命令启动训练：\n\n```bash\n# 单节点示例\npython -m unirl.train_diffusion --config-name=diffusion/sd3_trainside\nbash examples/run_experiment_single_node.sh diffusion/sd3_trainside\n```\n\n## 技术实现亮点\n\n### 统一的 RL 循环抽象\n\nUniRL 将 RL 训练循环抽象为五个标准阶段：生成（Generate）、评分（Score）、计算优势（Compute Advantage）、策略更新（Update Policy）、权重同步（Sync Weights）。这一抽象适用于所有支持的模型类型，无论是处理离散 token 的 LLM，还是处理连续噪声的扩散模型。\n\n### 灵活的 Rollout 引擎\n\n框架支持多种推理后端作为 rollout 引擎，包括 vLLM、SGLang 和自研的推理服务。用户可以根据模型类型和部署环境灵活选择，甚至可以在同一训练任务中混合使用不同的引擎。\n\n### 分布式训练支持\n\nUniRL 基于 Ray 构建分布式运行时，支持：\n- 数据并行（Data Parallelism）\n- 模型并行（FSDP）\n- 分离式 rollout（将推理和训练放在不同设备上）\n- 同置式 rollout（在相同设备上交替执行推理和训练）\n\n### 奖励服务解耦\n\n框架将奖励计算解耦为独立服务（unirl-reward-service），支持多种奖励模型后端，包括：\n- 基于学习的奖励模型（如 PickScore）\n- 基于规则的奖励函数\n- 外部 API 奖励（如 GPT-4V 评判）\n\n这种解耦设计使得奖励计算可以独立扩展，也方便接入领域特定的评估逻辑。\n\n## 应用价值与前景\n\nUniRL 的开源对于多模态 AI 社区具有多重价值：\n\n**降低研究门槛**：研究者不再需要为每种模型类型重建训练基础设施，可以专注于算法创新本身。\n\n**促进技术迁移**：在 LLM RL 中验证有效的技术（如 GRPO、DRPO）可以更容易地迁移到扩散模型领域，反之亦然。\n\n**加速产业落地**：统一的训练框架意味着更低的维护成本和更快的产品迭代速度，特别适合需要同时运营多种模型类型的企业场景。\n\n**推动统一模型发展**：随着 HunyuanImage3、Bagel 等统一模型的兴起，UniRL 提供的 `train_unified_model` 入口将成为探索下一代多模态架构的重要工具。\n\n## 项目路线图\n\n根据官方路线图，UniRL 团队正在积极扩展以下方向：\n\n1. **算法覆盖扩展**：为 FLUX.2-Klein、HunyuanVideo 1.0/1.5、Bagel 等新模型家族增加算法支持\n2. **算法跨域迁移**：将 FlowDPPO 和 DRPO 扩展到更多模型家族\n3. **奖励后端丰富**：增加更多奖励模型和评估指标的支持\n4. **Rollout 引擎优化**：提升推理效率和吞吐量\n\n## 总结\n\nUniRL 代表了多模态模型 RL 训练框架的重要进步。通过将通用 RL 循环与领域特定实现分离，UniRL 成功实现了"一套代码，多种模型"的目标。对于从事多模态生成模型、视觉语言模型或统一架构研究的团队来说，UniRL 提供了一个值得认真考虑的基础设施选择。随着项目的持续迭代和社区的参与，我们有理由期待它将成为多模态 RL 领域的重要基石。\n\n## 相关链接\n\n- GitHub 仓库：https://github.com/Tencent-Hunyuan/UniRL\n- 官方文档：https://unirl-project.github.io/unirl/\n- 安装指南：https://github.com/Tencent-Hunyuan/UniRL/blob/main/INSTALL.md\n- 示例配置：https://github.com/Tencent-Hunyuan/UniRL/tree/main/examples