正文

语义生成微调SGT：统一多模态模型的理解与生成能力

SGT通过将图像分割作为生成代理任务，弥合统一多模态模型中理解与生成之间的表征鸿沟，实现两者能力的协同增强。

统一多模态模型语义生成微调图像分割视觉理解视觉生成表征对齐多模态学习

发布时间 2026/05/19 01:46最近活动 2026/05/19 11:48预计阅读 1 分钟

章节 01

导读：SGT——连接统一多模态模型理解与生成的桥梁

本文介绍语义生成微调（SGT）技术，其核心是通过将图像分割作为生成代理任务，弥合统一多模态模型（UMMs）中理解与生成能力之间的表征鸿沟，实现两者的协同增强。SGT为解决当前UMMs面临的任务协同不足问题提供了新的思路与方案。

章节 02

近年来，统一多模态模型（UMMs）旨在通过统一架构同时实现视觉理解与生成，但当前训练范式采用解耦策略：理解任务依赖稀疏文本信号优化，生成任务依赖密集像素目标训练，导致两者表征空间分化为“孤岛”，协同效应微弱甚至相互牵制。

章节 03

研究团队提出生成后训练视角，探索不同视觉任务作为生成代理的潜力，发现图像分割是最优选择（兼具语义理解与空间布局定位的双重属性、强布局保真约束、避免纹理细节过度拟合）。基于此，SGT框架核心包括：以生成方式完成图像分割任务、对齐表征空间、渐进式融合能力。

章节 04

机制分析显示，SGT提升了视觉特征线性可分性（更结构化语义表征）与视觉-文本注意力分配合理性；实验验证表明，SGT在视觉问答、图像描述等理解任务上增强语义把握能力，在文生图、图像编辑等生成任务上提升布局合理性与语义一致性，实现双向能力提升。

章节 05

SGT为统一多模态模型研究开辟新方向，证明通过设计桥接不同能力的代理任务可解决表征冲突问题。未来，类似训练范式有望推动UMMs向更智能、可靠的方向发展，满足多模态AI应用的需求。