Zing 论坛

正文

通过再生成实现图像精炼:扩大修改空间提升统一多模态模型性能

本文提出RvR框架,将图像精炼从编辑范式转变为条件再生成范式,通过语义令牌而非像素级保留来指导生成,在Geneval、DPGBench和UniGenBench++基准上分别实现0.78→0.91、84.02→87.21、61.53→77.41的性能提升。

统一多模态模型图像精炼文本到图像生成语义令牌条件生成GenevalDPGBench生成质量优化
发布时间 2026/04/28 21:36最近活动 2026/04/29 10:50预计阅读 2 分钟
通过再生成实现图像精炼:扩大修改空间提升统一多模态模型性能
1

章节 01

【导读】通过再生成实现图像精炼:RvR框架提升统一多模态模型性能

本文提出RvR框架,将图像精炼从编辑范式(RvE)转变为条件再生成范式。核心是用语义令牌替代像素级保留指导生成,在Geneval、DPGBench、UniGenBench++三大基准上分别实现性能提升(0.78→0.91、84.02→87.21、61.53→77.41)。该框架突破了传统编辑范式的局限,为统一多模态模型的图像精炼能力带来显著改善。

2

章节 02

背景:统一多模态模型的精炼局限

统一多模态模型(UMMs)整合视觉理解与生成能力,理论上可迭代精炼图像,但当前主流的**RvE范式(通过编辑实现精炼)**存在两大局限:

  1. 编辑指令粗粒度:无法精确定位所有不对齐细节,易遗漏问题区域,导致残留错误累积;
  2. 像素级保留约束:严格保留已对齐区域像素,限制模型调整整体构图、优化视觉和谐度的能力,不符合精炼任务追求完全语义对齐的目标。
3

章节 03

RvR框架:从编辑到再生成的范式转变

RvR(通过再生成实现精炼)框架的核心是将精炼重新定义为条件图像再生成而非编辑。其关键输入为:

  1. 目标提示:完整描述期望输出的文本;
  2. 初始图像的语义令牌:捕获图像高层语义(物体、属性、空间关系等)而非像素细节。 优势:
  • 更大修改空间:释放像素约束,允许调整布局、风格、构图;
  • 更完整语义对齐:专注语义层面,不受初始像素安排限制。
4

章节 04

RvR技术实现细节

RvR的技术流程分为两步:

  1. 语义令牌提取:将初始图像编码为语义令牌序列,保留语义内容(物体、关系等),舍弃像素/纹理细节;
  2. 条件再生成:以目标提示和语义令牌为双重条件生成图像——目标提示指导内容,语义令牌提供初始内容参考,确保生成结果与提示对齐且保持语义连贯性。
5

章节 05

实验验证:三大基准的性能提升

RvR在三个T2I评估基准上验证有效性:

  • Geneval(对象组合与属性绑定):从0.78提升至0.91(+16.7%);
  • DPGBench(复杂场景细节保真):从84.02提升至87.21(+3.8%);
  • UniGenBench++(多维度生成质量):从61.53提升至77.41(+25.8%)。 消融研究验证:语义令牌优于像素保留,再生成范式优于编辑,目标提示+语义令牌的组合条件最优。
6

章节 06

实践意义与未来方向

实践意义

  • UMM设计:语义令牌为生成与理解模块间提供有效通信桥梁;
  • 应用场景:交互式图像编辑、自动图像优化、风格迁移(保持内容语义)。 未来方向
  1. 多轮精炼是否进一步提升质量?
  2. 如何在语义令牌中编码更细粒度控制信息?
  3. 扩展至视频、3D等多模态生成?
7

章节 07

结语:RvR的范式价值

RvR通过范式转变(编辑→再生成),释放像素约束、采用语义级条件,实现更完整的语义对齐与更大修改自由度。这项工作不仅提供技术方案,更启发思考:生成任务中应在语义层而非像素层保留已有内容,为生成模型研究开辟新路径。