章节 01
【导读】通过再生成实现图像精炼:RvR框架提升统一多模态模型性能
本文提出RvR框架,将图像精炼从编辑范式(RvE)转变为条件再生成范式。核心是用语义令牌替代像素级保留指导生成,在Geneval、DPGBench、UniGenBench++三大基准上分别实现性能提升(0.78→0.91、84.02→87.21、61.53→77.41)。该框架突破了传统编辑范式的局限,为统一多模态模型的图像精炼能力带来显著改善。
正文
本文提出RvR框架,将图像精炼从编辑范式转变为条件再生成范式,通过语义令牌而非像素级保留来指导生成,在Geneval、DPGBench和UniGenBench++基准上分别实现0.78→0.91、84.02→87.21、61.53→77.41的性能提升。
章节 01
本文提出RvR框架,将图像精炼从编辑范式(RvE)转变为条件再生成范式。核心是用语义令牌替代像素级保留指导生成,在Geneval、DPGBench、UniGenBench++三大基准上分别实现性能提升(0.78→0.91、84.02→87.21、61.53→77.41)。该框架突破了传统编辑范式的局限,为统一多模态模型的图像精炼能力带来显著改善。
章节 02
统一多模态模型(UMMs)整合视觉理解与生成能力,理论上可迭代精炼图像,但当前主流的**RvE范式(通过编辑实现精炼)**存在两大局限:
章节 03
RvR(通过再生成实现精炼)框架的核心是将精炼重新定义为条件图像再生成而非编辑。其关键输入为:
章节 04
RvR的技术流程分为两步:
章节 05
RvR在三个T2I评估基准上验证有效性:
章节 06
实践意义:
章节 07
RvR通过范式转变(编辑→再生成),释放像素约束、采用语义级条件,实现更完整的语义对齐与更大修改自由度。这项工作不仅提供技术方案,更启发思考:生成任务中应在语义层而非像素层保留已有内容,为生成模型研究开辟新路径。