正文

DARE：扩散大语言模型的对齐与强化学习执行框架

DARE是一个专为扩散大语言模型设计的监督微调和强化学习训练框架，支持多种RL算法和全面评估，助力dLLM研究社区发展

扩散语言模型强化学习大语言模型DARELLaDASDAR监督微调模型对齐开源框架机器学习

发布时间 2026/06/12 01:32最近活动 2026/06/12 01:48预计阅读 3 分钟

章节 01

DARE框架核心介绍：专为扩散大语言模型设计的对齐与强化学习执行工具

DARE（Diffusion Large Language Models Alignment and Reinforcement Executor）是由yjyddq团队开发并开源在GitHub的框架，专为扩散大语言模型（dLLM）设计，提供监督微调（SFT）、参数高效微调（PEFT）及强化学习（RL）训练能力，并支持全面评估。该框架旨在填补现有RL框架无法直接适配dLLM的空白，助力dLLM研究社区发展。项目发布于2026年6月，原始链接：https://github.com/yjyddq/DARE。

章节 02

项目背景与动机：填补扩散语言模型RL框架空白

近年来，扩散语言模型（dLLM）作为新架构范式兴起，通过迭代去噪生成文本，但现有RL框架多针对自回归模型设计，无法直接应用于dLLM。为解决这一问题，DARE框架应运而生，专门适配dLLM的训练与评估需求。

章节 03

DARE核心架构与支持的模型类型

DARE包含两大核心组件：

训练框架：基于verl构建，支持SFT、PEFT（如LoRA）及多种RL算法；
评估框架：基于OpenCompass，提供快速推理加速、全面基准测试及SGLang集成。支持的模型类型覆盖两大路线：

掩码扩散模型：LLaDA系列（如LLaDA-8B-Instruct）、Dream模型；
块扩散模型：SDAR系列（如SDAR-30B-A3B-Chat）、LLaDA2.X系列。

章节 04

丰富的RL算法支持：覆盖基础到高级技术路线

DARE实现了丰富的RL算法“动物园”，覆盖不同模型适用场景：

算法名称	适用模型
d1	通用
Coupled-GRPO	LLaDA/Dream
VRPO	LLaDA/Dream
MDPO	LLaDA/Dream
CJ-GRPO	LLaDA/Dream
BGPO	LLaDA2.X
SPG	SDAR系列
EBPO	SDAR/LLaDA2.X
d-TreeRPO	LLaDA/Dream
研究者可根据任务选择合适算法。

章节 05

技术亮点与使用指南

技术亮点：

序列并行技术：分割长序列到多设备，扩展上下文长度；
SGLang集成：深度优化rollout与评估加速，团队贡献PR修复采样参数；
多节点训练：提供示例配置支持大规模分布式训练。 使用指南：
训练环境：创建DARE虚拟环境，安装requirements及flash-attn；
评估环境：创建opencompass环境，安装DARE/opencompass；
SGLang：使用兼容PR分支安装；
训练示例：SFT（含PEFT）、RL、多节点训练脚本可用。

章节 06

评估体系与社区协作

评估体系：支持HumanEval（代码生成）、数学推理（需额外依赖）及OpenCompass综合基准，未来计划扩展多模态评估。 社区协作：项目为进行中工作，欢迎反馈与协作；基于verl和OpenCompass构建，开源许可证保障可扩展性。

章节 07

DARE的实际意义与未来展望

实际意义：降低dLLM研究门槛（统一接口）、促进算法公平比较、加速模型迭代、推动社区协作。 未来展望：计划支持更多模型与算法，有望成为dLLM领域标准训练框架，支撑该新兴方向发展。

DARE：扩散大语言模型的对齐与强化学习执行框架

DARE框架核心介绍：专为扩散大语言模型设计的对齐与强化学习执行工具

项目背景与动机：填补扩散语言模型RL框架空白

DARE核心架构与支持的模型类型

丰富的RL算法支持：覆盖基础到高级技术路线

技术亮点与使用指南

评估体系与社区协作

DARE的实际意义与未来展望

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

图神经网络革新全球天气预报：从Graph Weather到多模型融合的开源实践

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

Vertica专家技能：一站式企业级数据库迁移与优化指南