章节 01
【导读】Squeeze-MLLM:多模态大语言模型驱动主题图像生成新突破
核心观点:Squeeze-MLLM框架通过深度融合多模态大语言模型(MLLM)与扩散模型,结合双层聚合模块(DLA)和多阶段去噪策略,实现了在保持主体身份一致性的同时生成高质量文本引导图像,显著超越现有方法。 基本信息:
- 原作者团队:zsh2000等研究人员
- 来源平台:arXiv
- 发表时间:2026年5月25日
- 原文链接:http://arxiv.org/abs/2605.26111v1
- 项目主页:https://zsh2000.github.io/squeeze-mllm-subject-gen/