正文

Squeeze-MLLM：多模态大语言模型驱动的主题图像生成新突破

本文介绍Squeeze-MLLM框架，通过将多模态大语言模型与扩散模型深度融合，结合双层聚合模块与多阶段去噪策略，在保持主体身份一致性的同时实现高质量的文本引导图像生成，显著超越现有方法。

多模态大语言模型主题驱动图像生成扩散模型身份保持跨模态理解双层聚合多阶段去噪图像合成VAE条件计算机视觉

发布时间 2026/05/26 01:59最近活动 2026/05/26 12:18预计阅读 2 分钟

Squeeze-MLLM：多模态大语言模型驱动的主题图像生成新突破

1

章节 01

【导读】Squeeze-MLLM：多模态大语言模型驱动主题图像生成新突破

核心观点：Squeeze-MLLM框架通过深度融合多模态大语言模型（MLLM）与扩散模型，结合双层聚合模块（DLA）和多阶段去噪策略，实现了在保持主体身份一致性的同时生成高质量文本引导图像，显著超越现有方法。 基本信息：

原作者团队：zsh2000等研究人员
来源平台：arXiv
发表时间：2026年5月25日
原文链接：http://arxiv.org/abs/2605.26111v1
项目主页：https://zsh2000.github.io/squeeze-mllm-subject-gen/

2

章节 02

研究背景与核心挑战

主题驱动图像生成旨在根据参考图像和文本指令生成既保持主体身份又符合文本描述的新图像，应用于个性化创作、电商展示等场景。现有方法面临两大挑战：

分离式编码限制跨模态推理能力，难以理解文本与图像的复杂语义关联；
缺乏有效身份保持机制，易产生"复制粘贴"伪影。虽有研究将MLLM与扩散模型结合，但忽视身份保持，导致生成结果身份一致性差。

3

章节 03

Squeeze-MLLM框架核心设计

Squeeze-MLLM框架核心思想：

联合编码：让MLLM同时处理文本和参考图像，在统一语义空间理解两者关联，避免机械拼接；
VAE身份条件：引入变分自编码器提取细粒度特征，确保主体纹理、颜色等细节精确保持。两者结合实现语义理解与身份保持的有机统一。

4

章节 04

双层聚合模块（DLA）：多层级特征融合

双层聚合模块（DLA）聚合MLLM不同层次特征：

浅层特征：保留边缘、纹理等细节；
深层特征：蕴含物体类别、场景理解等语义。通过自适应调节权重，为扩散模型提供丰富条件信号，灵活适应不同生成需求（如精确身份保持或复杂语义理解）。

5

章节 05

多阶段去噪策略：渐进式平衡语义与身份

多阶段去噪策略分阶段平衡语义与身份：

早期阶段：依赖MLLM语义条件，建立正确构图与概念表达；
后期阶段：增强VAE身份条件权重，还原主体细节。模拟人类绘画过程（先轮廓后细节），有效缓解"复制粘贴"伪影。

6

章节 06

实验结果：显著超越现有方法

实验结果表明Squeeze-MLLM显著优于现有方法：

人类偏好：生成图像主观评分更高，平衡语义理解与身份保持；
定量指标：在身份保持度、文本-图像对齐度、图像质量等维度表现出色；
伪影缓解：实现更灵活自然的主体迁移，减少生硬拼接痕迹。

7

章节 07

技术启示与未来展望

技术启示：

MLLM在视觉生成任务中潜力巨大，可统一处理文本与图像输入；
DLA的多层级特征融合策略可借鉴到多尺度视觉任务；
多阶段去噪的动态条件调节为扩散模型条件控制提供新思路。 未来展望：探索更多聚合机制、推广动态条件调节到其他扩散应用，期待更智能的图像生成系统。