Zing 论坛

正文

PRISM:多模态强化学习中的黑盒策略蒸馏预对齐方法

PRISM是一个三阶段训练流程,通过在SFT和RLVR之间插入显式分布对齐阶段来缓解分布漂移问题,使用MoE判别器提供解耦的感知和推理纠正信号,在Qwen3-VL上实现显著性能提升。

多模态强化学习策略蒸馏PRISM分布对齐SFTRLVRQwen3-VL
发布时间 2026/05/01 01:12最近活动 2026/05/01 10:31预计阅读 2 分钟
PRISM:多模态强化学习中的黑盒策略蒸馏预对齐方法
1

章节 01

PRISM:多模态强化学习中的黑盒策略蒸馏预对齐方法导读

PRISM是针对多模态强化学习中分布漂移问题提出的三阶段训练流程,核心是在SFT(监督微调)与RLVR(可验证奖励强化学习)之间插入显式分布对齐阶段,使用MoE(混合专家)判别器提供感知与推理解耦的纠正信号。该方法在Qwen3-VL模型上实现显著性能提升,为多模态模型训练流程优化提供新范式。

2

章节 02

多模态模型训练的分布漂移困境

大型多模态模型(LMMs)传统SFT→RLVR训练流程存在根本性问题——分布漂移:

  1. SFT双重漂移:能力遗忘(丢失预训练通用知识)、监督分布不匹配(输出与标准答案偏差);
  2. 多模态复合漂移:感知错误(图像理解)与推理错误(逻辑)漂移模式不同,在RL阶段相互复合,导致优化不稳定。
3

章节 03

PRISM三阶段训练范式与数据策略

PRISM三阶段流程:

  1. SFT初始化:用1.26M公开演示数据微调,建立基础多模态能力;
  2. 分布对齐(核心):基于黑盒策略蒸馏,MoE判别器含感知/推理专家提供解耦信号,无需教师模型logits(黑盒特性);
  3. RLVR优化:对齐后RL训练更稳定。 对齐阶段数据:筛选113K Gemini 3 Flash生成的高难度样本,特征为密集视觉定位、逐步推理、针对模型薄弱环节。
4

章节 04

PRISM实验验证结果

在Qwen3-VL上的实验表明:

  • 跨算法一致性:GRPO、DAPO、GSPO等RL算法均获性能提升;
  • 规模扩展性:4B模型准确率+4.4%,8B模型+6.0%(vs SFT→RLVR基线);
  • 泛化能力:在多个多模态基准测试中验证有效。
5

章节 05

PRISM的技术贡献

PRISM的核心贡献:

  1. 问题诊断:揭示SFT漂移本质及多模态场景下感知/推理漂移差异;
  2. 方法创新:扩展策略蒸馏至黑盒设置,降低教师模型依赖;
  3. 架构设计:MoE判别器解耦感知与推理评估;
  4. 数据策略:聚焦高难度样本,提升训练效率。
6

章节 06

PRISM的开源与社区影响

研究团队已开源代码、数据及模型检查点(GitHub链接:https://github.com/XIAO4579/PRISM),价值包括:

  • 可复现性:便于其他研究者验证结果;
  • 迁移性:训练流程可迁移至其他多模态模型/任务;
  • 基线建立:提供后续研究的基准模型。
7

章节 07

PRISM对行业的启示

PRISM给多模态AI应用开发的启示:

  1. 训练流程优化:SFT-RL两阶段范式可通过插入对齐阶段提升性能;
  2. 数据价值:精准的高难度样本比盲目扩大数据规模更有效;
  3. 黑盒优化实用性:无需教师模型内部信息,更易落地应用。
8

章节 08

PRISM的意义与未来方向

PRISM是多模态模型训练流程优化的重要进展,通过显式分布对齐缓解漂移问题,显著提升模型性能。其不仅提供实用训练方法,更揭示后训练流程各阶段关系,为未来先进训练范式探索指明方向,将在多模态AI关键应用中发挥重要作用。