章节 01
RepFusion:利用多模态先验优化文本到图像生成的新方法导读
RepFusion是arXiv于2026年6月发布的文本到图像生成创新方法,核心思路为将多模态大语言模型(MLLM)作为噪声表征编码器,指导扩散变换器去噪,实现更高效的推理计算分配,提升生成质量与可控性。
正文
RepFusion提出了一种创新思路:将多模态大语言模型(MLLM)本身作为噪声表征编码器,利用其强大的语义理解能力来指导扩散变换器进行去噪,从而在文本到图像生成任务中实现更高效的推理计算分配。
章节 01
RepFusion是arXiv于2026年6月发布的文本到图像生成创新方法,核心思路为将多模态大语言模型(MLLM)作为噪声表征编码器,指导扩散变换器去噪,实现更高效的推理计算分配,提升生成质量与可控性。
章节 02
近年来T2I从GAN发展到扩散模型,质量显著提升,但现有架构中LLM仅作为文本编码器,未充分参与去噪核心环节。表征自编码器(RAE)的出现为融合语言与视觉生成提供新可能。
章节 03
RAE将生成目标转移到语义结构化视觉表征空间,其语义表征与LLM语义空间更兼容,为LLM直接参与生成提供理论基础。
MLLM通过MLP投影器对齐清晰视觉表征与LLM,研究团队假设MLLM可处理噪声表征,探索替代专用去噪网络的路径。
章节 04
RepFusion的核心创新是将MLLM重新定位为噪声表征编码器:
优势包括:
章节 05
在相似推理预算下,RepFusion表现优于将同等容量投入新初始化去噪器的基线方法。实验结果证明:
章节 06