Zing 论坛

正文

Flow-OPD:将大语言模型的策略蒸馏技术引入图像生成模型

研究人员将LLM领域成功的On-Policy Distillation(OPD)技术应用于Flow Matching图像生成模型,提出Flow-OPD框架,在Stable Diffusion 3.5上实现显著性能提升。

Flow MatchingOn-Policy Distillation图像生成Stable Diffusion策略蒸馏多任务对齐强化学习文本到图像
发布时间 2026/05/09 01:50最近活动 2026/05/11 13:18预计阅读 3 分钟
Flow-OPD:将大语言模型的策略蒸馏技术引入图像生成模型
1

章节 01

【导读】Flow-OPD:LLM策略蒸馏技术赋能图像生成模型

研究人员将大语言模型(LLM)领域成功的On-Policy Distillation(OPD)技术应用于Flow Matching图像生成模型,提出Flow-OPD框架。该框架解决了Flow Matching模型在微调对齐阶段面临的奖励稀疏和梯度干扰两大核心问题,并在Stable Diffusion 3.5上实现显著性能提升,为图像生成模型的多任务对齐提供新范式。

2

章节 02

背景:Flow Matching技术与现有瓶颈

Flow Matching与图像生成

Flow Matching是图像生成领域的重要技术突破,为扩散模型提供更直接高效的训练方式,通过学习概率分布间的确定性变换路径,简化生成过程,提升训练稳定性和质量,Stable Diffusion 3.5等主流模型已采用该技术。

现有瓶颈

奖励稀疏问题

传统强化学习用标量奖励信号优化模型,但稀疏反馈难以指导复杂图像生成任务的细粒度改进,导致学习效率低下。

梯度干扰与“跷跷板效应”

多异构目标(图像质量、文本对齐等)优化时,梯度相互干扰,出现“跷跷板效应”(提升一个指标导致另一个下降),还可能产生奖励作弊行为。

3

章节 03

解决方案:Flow-OPD框架详解

Flow-OPD是首个将策略蒸馏整合到Flow Matching模型的统一后训练框架,核心包括:

两阶段对齐策略

第一阶段:培养领域专家

使用单奖励GRPO微调,为每个特定领域(文本渲染、美学质量等)训练专门教师模型,避免多目标冲突。

第二阶段:知识蒸馏与整合

通过Flow-based Cold-Start建立初始策略,再经三步整合异构专家知识:

  1. On-policy采样:从当前策略生成样本
  2. 任务路由标注:按任务类型分配最优教师指导
  3. 密集轨迹级监督:利用完整生成轨迹细粒度学习

流形锚定正则化(MAR)

利用任务无关教师模型提供全数据监督,将生成分布锚定到高质量流形,确保图像保真度和人类偏好对齐,解决纯强化学习对齐中的美学退化问题。

4

章节 04

实验结果:Stable Diffusion 3.5上的显著提升

在Stable Diffusion 3.5 Medium上的实验结果如下:

指标 基线 Flow-OPD 提升
GenEval分数 63 92 +46%
OCR准确率 59% 94% +59%
相比vanilla GRPO - - +10分

此外,实现提升的同时保持了图像保真度和人类偏好对齐,还观察到“教师超越效应”——学生模型在某些方面超越专门训练的教师模型。

5

章节 05

技术洞察与意义

跨领域技术迁移价值

Flow-OPD证明LLM领域技术(如OPD)可有效迁移到图像生成领域,为AI研究提供跨模态借鉴思路。

多任务对齐新范式

通过分离专家训练与知识整合,为解决多目标优化中的跷跷板效应提供通用框架,可适用于其他平衡多目标的AI系统。

可扩展的对齐范式

Flow-OPD被定位为“构建通用文本到图像模型的可扩展对齐范式”,随图像生成模型发展,该系统化对齐方法将更重要。

6

章节 06

结语:Flow-OPD的技术价值与未来潜力

Flow-OPD代表图像生成模型后训练技术的重要进展,通过融合LLM策略蒸馏与Flow Matching,解决了奖励稀疏和梯度干扰等核心问题,实现显著性能提升。该工作为下一代通用图像生成模型开发奠定技术基础,展示了跨领域技术融合的巨大潜力。