Zing 论坛

正文

DARE:扩散大语言模型的对齐与强化学习训练框架

专为扩散大语言模型设计的灵活高效训练框架,支持监督微调、强化学习和全面评估,推动dLLM技术从研究走向实用。

扩散模型大语言模型强化学习监督微调LLaDA训练框架
发布时间 2026/04/13 02:57最近活动 2026/04/13 03:22预计阅读 2 分钟
DARE:扩散大语言模型的对齐与强化学习训练框架
1

章节 01

DARE框架:扩散大语言模型训练与评估的基础设施

DARE是首个系统性的扩散大语言模型(dLLM)训练与评估平台,专为解决dLLM训练优化的独特挑战而设计。它支持监督微调(SFT)、参数高效微调(PEFT)、强化学习(RL)等训练方式,整合推理加速与全面评估体系,旨在降低dLLM研究与应用门槛,推动技术从学术走向实用。

2

章节 02

扩散模型与dLLM的兴起及挑战

自2022年ChatGPT引领LLM热潮以来,自回归架构主导市场,但扩散模型(源自图像领域)正改变格局。dLLM采用“从粗到精”的多步去噪生成模式,具有并行生成、灵活编辑、全局一致性等优势(如LLaDA、Dream、SDAR等模型证明其潜力)。然而,传统自回归训练方法无法直接迁移,dLLM训练优化面临独特挑战,DARE框架因此应运而生。

3

章节 03

DARE的技术架构与核心能力

DARE采用模块化架构,核心能力包括:1.基础训练:支持SFT(全参数/PEFT)、RL(在线RL、Coupled-GRPO等优化算法)、偏好优化(MDPO、VRPO);2.推理加速:块缓存(2.2倍rollout加速)、集成lmdeploy/SGLang(2-4倍加速)、序列并行(扩展生成长度);3.注意力优化:支持FlashAttention系列后端,降低计算开销。

4

章节 04

DARE支持的模型家族与评估体系

DARE支持三大dLLM家族:1.掩码扩散模型(LLaDA 8B Instruct及2.X系列、Dream7B Instruct);2.块扩散模型(SDAR 8B Chat/30B A3B Chat、LLaDA2.0)。评估体系基于OpenCompass,覆盖知识能力(MMLU/C-Eval)、数学推理(GSM8K/MATH+验证工具)、代码能力(HumanEval/MBPP)、推理规划(BBH)等维度,考虑dLLM特殊性。

5

章节 05

DARE的最新动态及社区价值

DARE自2025年12月发布以来持续迭代,2026年3月更新包括支持d-TreeRPO/BGPO/EBPO算法、修复SDAR问题、支持序列并行等。其意义在于:降低dLLM入门门槛,让研究者聚焦算法创新;促进研究标准化与可复现性;模块化设计鼓励社区贡献,推动生态建设。

6

章节 06

多模态扩展与dLLM的潜力

DARE路线图向多模态/全模态扩展,利用扩散架构在图像/音频/视频生成的优势,构建统一多模态生成模型。尽管自回归模型仍主导,但dLLM的独特优势(并行生成、灵活控制)使其潜力巨大。DARE作为基础设施,将助力dLLM技术成熟,社区可参与贡献共同推动发展。