正文

DARE：扩散大语言模型的对齐与强化学习训练框架

专为扩散大语言模型设计的灵活高效训练框架，支持监督微调、强化学习和全面评估，推动dLLM技术从研究走向实用。

扩散模型大语言模型强化学习监督微调LLaDA训练框架

发布时间 2026/04/13 02:57最近活动 2026/04/13 03:22预计阅读 2 分钟

章节 01

DARE框架：扩散大语言模型训练与评估的基础设施

DARE是首个系统性的扩散大语言模型（dLLM）训练与评估平台，专为解决dLLM训练优化的独特挑战而设计。它支持监督微调（SFT）、参数高效微调（PEFT）、强化学习（RL）等训练方式，整合推理加速与全面评估体系，旨在降低dLLM研究与应用门槛，推动技术从学术走向实用。

章节 02

扩散模型与dLLM的兴起及挑战

自2022年ChatGPT引领LLM热潮以来，自回归架构主导市场，但扩散模型（源自图像领域）正改变格局。dLLM采用“从粗到精”的多步去噪生成模式，具有并行生成、灵活编辑、全局一致性等优势（如LLaDA、Dream、SDAR等模型证明其潜力）。然而，传统自回归训练方法无法直接迁移，dLLM训练优化面临独特挑战，DARE框架因此应运而生。

章节 03

DARE的技术架构与核心能力

DARE采用模块化架构，核心能力包括：1.基础训练：支持SFT（全参数/PEFT）、RL（在线RL、Coupled-GRPO等优化算法）、偏好优化（MDPO、VRPO）；2.推理加速：块缓存（2.2倍rollout加速）、集成lmdeploy/SGLang（2-4倍加速）、序列并行（扩展生成长度）；3.注意力优化：支持FlashAttention系列后端，降低计算开销。

章节 04

DARE支持的模型家族与评估体系

DARE支持三大dLLM家族：1.掩码扩散模型（LLaDA 8B Instruct及2.X系列、Dream7B Instruct）；2.块扩散模型（SDAR 8B Chat/30B A3B Chat、LLaDA2.0）。评估体系基于OpenCompass，覆盖知识能力（MMLU/C-Eval）、数学推理（GSM8K/MATH+验证工具）、代码能力（HumanEval/MBPP）、推理规划（BBH）等维度，考虑dLLM特殊性。

章节 05