# DARE：扩散大语言模型的对齐与强化学习执行框架

> DARE是一个专为扩散大语言模型设计的监督微调和强化学习训练框架，支持多种RL算法和全面评估，助力dLLM研究社区发展

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-11T17:32:57.000Z
- 最近活动: 2026-06-11T17:48:44.267Z
- 热度: 154.7
- 关键词: 扩散语言模型, 强化学习, 大语言模型, DARE, LLaDA, SDAR, 监督微调, 模型对齐, 开源框架, 机器学习
- 页面链接: https://www.zingnex.cn/forum/thread/dare-66a5861a
- Canonical: https://www.zingnex.cn/forum/thread/dare-66a5861a
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：yjyddq
- 来源平台：github
- 原始标题：DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
- 原始链接：https://github.com/yjyddq/DARE
- 来源发布时间/更新时间：2026-06-11T17:32:57Z

## 原作者与来源\n\n- **原作者/维护者：** yjyddq\n- **来源平台：** GitHub\n- **原始标题：** DARE: Diffusion Large Language Models Alignment and Reinforcement Executor\n- **原始链接：** https://github.com/yjyddq/DARE\n- **发布时间：** 2026年6月\n\n---\n\n## 项目背景与动机\n\n近年来，大语言模型领域出现了一种新的架构范式——扩散语言模型（Diffusion Large Language Models，简称dLLM）。与传统的自回归模型不同，扩散模型通过迭代去噪过程生成文本，这种机制在图像生成领域已经取得了巨大成功，现在正被引入到自然语言处理中。\n\n然而，扩散语言模型的训练和评估面临着独特的挑战。现有的强化学习框架大多针对自回归模型设计，无法直接应用于dLLM。为了填补这一空白，yjyddq团队开发了DARE——一个专门为扩散大语言模型设计的对齐与强化学习执行框架。\n\n---\n\n## DARE框架核心架构\n\nDARE是一个灵活且高效的训练框架，主要包含两大核心组件：\n\n### 1. 训练框架\n\n基于verl项目构建，支持：\n\n- **监督微调（SFT）**：对预训练的dLLM进行领域适配\n- **参数高效微调（PEFT）**：使用LoRA等技术减少计算开销\n- **强化学习（RL）**：支持多种RL算法进行模型对齐\n\n### 2. 评估框架\n\n基于OpenCompass构建，提供：\n\n- 快速的dLLM推理加速\n- 全面的基准测试覆盖\n- 与SGLang等推理引擎集成\n\n---\n\n## 支持的模型类型\n\nDARE框架支持多种扩散语言模型架构：\n\n### 掩码扩散语言模型\n\n- **LLaDA系列**：包括LLaDA-8B-Instruct、LLaDA2.0、LLaDA2.1-mini等\n- **Dream模型**：支持Dream系列的训练和评估\n\n### 块扩散语言模型\n\n- **SDAR系列**：支持SDAR-30B-A3B-Chat等大规模模型\n- **LLaDA2.X系列**：新一代块扩散架构\n\n这些模型代表了扩散语言模型的两大主流技术路线，DARE框架为它们提供了统一的训练和评估接口。\n\n---\n\n## 支持的强化学习算法\n\nDARE实现了多种先进的RL算法，形成了丰富的"算法动物园"：\n\n| 算法名称 | 说明 | 适用模型 |\n|---------|------|---------|\n| **d1** | 基础扩散RL算法 | 通用 |\n| **Coupled-GRPO** | 耦合组相对策略优化 | LLaDA/Dream |\n| **VRPO** | 变分偏好优化 | LLaDA/Dream |\n| **MDPO** | 掩码扩散策略优化 | LLaDA/Dream |\n| **CJ-GRPO** | 约束联合GRPO | LLaDA/Dream |\n| **BGPO** | 块生成策略优化 | LLaDA2.X |\n| **SPG** | 序列并行生成 | SDAR系列 |\n| **EBPO** | 经验贝叶斯偏好优化 | SDAR/LLaDA2.X |\n| **d-TreeRPO** | 树状扩散RPO | LLaDA/Dream |\n\n这些算法覆盖了从基础到高级的各种RL技术，研究者可以根据具体任务选择合适的算法。\n\n---\n\n## 技术亮点与创新\n\n### 序列并行技术\n\nDARE支持序列并行（Sequence Parallel），这是扩展dLLM生成长度能力的关键技术。通过将长序列分割到多个设备上并行处理，可以显著扩展模型的有效上下文长度。\n\n### SGLang集成\n\n框架与SGLang推理引擎深度集成，为SDAR和LLaDA2.x系列模型提供高效的rollout和评估加速。特别值得注意的是，DARE团队还贡献了SGLang的PR修复，优化了DLLM采样参数以获得更好的rollout多样性。\n\n### 多节点训练支持\n\nDARE提供了多节点RL训练的示例配置，使得大规模分布式训练变得简单可行。例如，针对LLaDA d1模型的多节点训练脚本已经包含在项目中。\n\n---\n\n## 安装与使用\n\n由于训练和评估的依赖存在冲突，DARE建议创建两个独立的虚拟环境：\n\n### 训练环境\n\n```bash\nconda create -n DARE python=3.10 -y\nconda activate DARE\npip install -r requirements.txt\npip install flash-attn==2.8.3 --no-build-isolation\n```\n\n### 评估环境\n\n```bash\nconda create --name opencompass python=3.10 -y\nconda activate opencompass\ncd DARE/opencompass\npip install -e .\n```\n\n### SGLang安装\n\n推荐使用DARE兼容的SGLang PR分支：\n\n```bash\ngit clone https://github.com/sgl-project/sglang.git\ncd sglang\ngit fetch origin pull/27943/head:dllm-sampling-params\ngit checkout dllm-sampling-params\npip install -e \"python\"\n```\n\n---\n\n## 训练示例\n\n### 监督微调\n\n```bash\nbash scripts/run_sft.sh\n# 或使用PEFT\nbash scripts/run_sft_peft.sh\n```\n\n### 强化学习训练\n\n```bash\n# 使用特定算法配方\nbash recipe/run_sft_peft_llada_8b_instruct.sh\n```\n\n### 多节点训练\n\n```bash\n# LLaDA d1多节点RL训练示例\nbash recipe/run_multinode_rl_llada_d1.sh\n```\n\n---\n\n## 评估与性能\n\nDARE的评估框架支持：\n\n- **HumanEval**：代码生成能力测试\n- **数学推理**：需要额外安装math_verify和latex2sympy2_extended\n- **综合基准**：通过OpenCompass集成多种评估数据集\n\n框架还计划支持多模态和全模态模型的评估，进一步扩展其应用范围。\n\n---\n\n## 社区与协作\n\nDARE项目明确表示这是一个进行中的工作，团队计划支持更多的模型和算法。他们热情欢迎研究社区的协作、反馈和建议，共同推动扩散大语言模型的发展。\n\n项目采用开源许可证，基于verl和OpenCompass等成熟项目构建，具有良好的可扩展性和维护性。\n\n---\n\n## 实际意义与应用前景\n\nDARE框架的推出对于扩散语言模型研究具有重要意义：\n\n1. **降低研究门槛**：提供统一的训练和评估接口，让研究者可以专注于算法创新而非基础设施\n2. **促进算法比较**：支持多种RL算法，便于公平比较不同方法的效果\n3. **加速模型迭代**：高效的训练和推理加速，缩短实验周期\n4. **推动社区协作**：开源代码和活跃维护，促进知识共享和技术进步\n\n随着扩散语言模型在文本生成、代码生成、推理任务等领域展现出潜力，DARE这样的专业工具将成为推动该领域发展的重要基础设施。\n\n---\n\n## 总结与展望\n\nDARE代表了扩散大语言模型工具链的重要进展。它不仅提供了全面的训练和评估能力，还通过模块化的设计支持灵活的扩展。对于从事dLLM研究的研究者来说，这是一个值得深入探索的工具。\n\n未来，随着更多模型架构和RL算法的加入，DARE有望成为扩散语言模型领域的标准训练框架之一，为这一新兴方向的发展提供坚实的技术支撑。