Zing 论坛

正文

DARE:扩散大语言模型的对齐与强化学习执行框架

DARE是一个专为扩散大语言模型设计的监督微调和强化学习训练框架,支持多种RL算法和全面评估,助力dLLM研究社区发展

扩散语言模型强化学习大语言模型DARELLaDASDAR监督微调模型对齐开源框架机器学习
发布时间 2026/06/12 01:32最近活动 2026/06/12 01:48预计阅读 3 分钟
DARE:扩散大语言模型的对齐与强化学习执行框架
1

章节 01

DARE框架核心介绍:专为扩散大语言模型设计的对齐与强化学习执行工具

DARE(Diffusion Large Language Models Alignment and Reinforcement Executor)是由yjyddq团队开发并开源在GitHub的框架,专为扩散大语言模型(dLLM)设计,提供监督微调(SFT)、参数高效微调(PEFT)及强化学习(RL)训练能力,并支持全面评估。该框架旨在填补现有RL框架无法直接适配dLLM的空白,助力dLLM研究社区发展。项目发布于2026年6月,原始链接:https://github.com/yjyddq/DARE。

2

章节 02

项目背景与动机:填补扩散语言模型RL框架空白

近年来,扩散语言模型(dLLM)作为新架构范式兴起,通过迭代去噪生成文本,但现有RL框架多针对自回归模型设计,无法直接应用于dLLM。为解决这一问题,DARE框架应运而生,专门适配dLLM的训练与评估需求。

3

章节 03

DARE核心架构与支持的模型类型

DARE包含两大核心组件:

  1. 训练框架:基于verl构建,支持SFT、PEFT(如LoRA)及多种RL算法;
  2. 评估框架:基于OpenCompass,提供快速推理加速、全面基准测试及SGLang集成。 支持的模型类型覆盖两大路线:
  • 掩码扩散模型:LLaDA系列(如LLaDA-8B-Instruct)、Dream模型;
  • 块扩散模型:SDAR系列(如SDAR-30B-A3B-Chat)、LLaDA2.X系列。
4

章节 04

丰富的RL算法支持:覆盖基础到高级技术路线

DARE实现了丰富的RL算法“动物园”,覆盖不同模型适用场景:

算法名称 适用模型
d1 通用
Coupled-GRPO LLaDA/Dream
VRPO LLaDA/Dream
MDPO LLaDA/Dream
CJ-GRPO LLaDA/Dream
BGPO LLaDA2.X
SPG SDAR系列
EBPO SDAR/LLaDA2.X
d-TreeRPO LLaDA/Dream
研究者可根据任务选择合适算法。
5

章节 05

技术亮点与使用指南

技术亮点

  • 序列并行技术:分割长序列到多设备,扩展上下文长度;
  • SGLang集成:深度优化rollout与评估加速,团队贡献PR修复采样参数;
  • 多节点训练:提供示例配置支持大规模分布式训练。 使用指南
  • 训练环境:创建DARE虚拟环境,安装requirements及flash-attn;
  • 评估环境:创建opencompass环境,安装DARE/opencompass;
  • SGLang:使用兼容PR分支安装;
  • 训练示例:SFT(含PEFT)、RL、多节点训练脚本可用。
6

章节 06

评估体系与社区协作

评估体系:支持HumanEval(代码生成)、数学推理(需额外依赖)及OpenCompass综合基准,未来计划扩展多模态评估。 社区协作:项目为进行中工作,欢迎反馈与协作;基于verl和OpenCompass构建,开源许可证保障可扩展性。

7

章节 07

DARE的实际意义与未来展望

实际意义:降低dLLM研究门槛(统一接口)、促进算法公平比较、加速模型迭代、推动社区协作。 未来展望:计划支持更多模型与算法,有望成为dLLM领域标准训练框架,支撑该新兴方向发展。