正文

RepFusion：利用多模态先验在表征空间中进行去噪的新方法

RepFusion提出了一种创新思路：将多模态大语言模型（MLLM）本身作为噪声表征编码器，利用其强大的语义理解能力来指导扩散变换器进行去噪，从而在文本到图像生成任务中实现更高效的推理计算分配。

text-to-imagemultimodal LLMdiffusion modelrepresentation learningdenoisingRepFusion视觉生成多模态扩散模型

发布时间 2026/06/13 01:59最近活动 2026/06/15 11:19预计阅读 2 分钟

章节 01

RepFusion：利用多模态先验优化文本到图像生成的新方法导读

RepFusion是arXiv于2026年6月发布的文本到图像生成创新方法，核心思路为将多模态大语言模型（MLLM）作为噪声表征编码器，指导扩散变换器去噪，实现更高效的推理计算分配，提升生成质量与可控性。

章节 02

RepFusion研究背景：文本到图像生成的现有局限

原作者与来源

原作者/维护者：arXiv authors
来源平台：arxiv
原始标题：RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space
原始链接：http://arxiv.org/abs/2606.14700v1
发布时间：2026-06-12T17:59:51Z

T2I技术的进展与局限

近年来T2I从GAN发展到扩散模型，质量显著提升，但现有架构中LLM仅作为文本编码器，未充分参与去噪核心环节。表征自编码器（RAE）的出现为融合语言与视觉生成提供新可能。

章节 03

关键基础：表征自编码器与MLLM的启发

表征自编码器（RAE）的作用

RAE将生成目标转移到语义结构化视觉表征空间，其语义表征与LLM语义空间更兼容，为LLM直接参与生成提供理论基础。

MLLM的技术启示

MLLM通过MLP投影器对齐清晰视觉表征与LLM，研究团队假设MLLM可处理噪声表征，探索替代专用去噪网络的路径。

章节 04

RepFusion核心机制：MLLM作为噪声表征编码器

RepFusion的核心创新是将MLLM重新定位为噪声表征编码器：

MLLM处理噪声视觉表征的输出作为条件信号
条件信号输入扩散变换器进行去噪

优势包括：

利用MLLM预训练先验，无需从头训练
动态条件生成，更符合文本描述
灵活分配推理计算资源

章节 05

实验验证：RepFusion性能优于基线方法

在相似推理预算下，RepFusion表现优于将同等容量投入新初始化去噪器的基线方法。实验结果证明：

MLLM为去噪提供强先验知识
对噪声表征条件化可有效利用测试计算资源
该架构为T2I提供新的推理分配范式

章节 06

技术意义与未来展望

技术意义

证明MLLM可直接参与生成任务核心环节
为T2I架构提供新思路：利用预训练模型替代专用去噪网络

未来展望

激发高效利用预训练模型的研究
推动语言与视觉生成结合的混合架构发展
降低训练资源需求，促进T2I技术普及