正文

PRISM：多模态强化学习中的黑盒策略蒸馏预对齐方法

PRISM是一个三阶段训练流程，通过在SFT和RLVR之间插入显式分布对齐阶段来缓解分布漂移问题，使用MoE判别器提供解耦的感知和推理纠正信号，在Qwen3-VL上实现显著性能提升。

多模态强化学习策略蒸馏PRISM分布对齐SFTRLVRQwen3-VL

发布时间 2026/05/01 01:12最近活动 2026/05/01 10:31预计阅读 2 分钟

章节 01

PRISM：多模态强化学习中的黑盒策略蒸馏预对齐方法导读

PRISM是针对多模态强化学习中分布漂移问题提出的三阶段训练流程，核心是在SFT（监督微调）与RLVR（可验证奖励强化学习）之间插入显式分布对齐阶段，使用MoE（混合专家）判别器提供感知与推理解耦的纠正信号。该方法在Qwen3-VL模型上实现显著性能提升，为多模态模型训练流程优化提供新范式。

章节 02

大型多模态模型（LMMs）传统SFT→RLVR训练流程存在根本性问题——分布漂移：

章节 03

PRISM三阶段流程：

SFT初始化：用1.26M公开演示数据微调，建立基础多模态能力；
分布对齐（核心）：基于黑盒策略蒸馏，MoE判别器含感知/推理专家提供解耦信号，无需教师模型logits（黑盒特性）；
RLVR优化：对齐后RL训练更稳定。对齐阶段数据：筛选113K Gemini 3 Flash生成的高难度样本，特征为密集视觉定位、逐步推理、针对模型薄弱环节。

章节 04

在Qwen3-VL上的实验表明：

章节 05

PRISM的核心贡献：

章节 06

研究团队已开源代码、数据及模型检查点（GitHub链接：https://github.com/XIAO4579/PRISM），价值包括：

章节 07

PRISM给多模态AI应用开发的启示：

章节 08

PRISM是多模态模型训练流程优化的重要进展，通过显式分布对齐缓解漂移问题，显著提升模型性能。其不仅提供实用训练方法，更揭示后训练流程各阶段关系，为未来先进训练范式探索指明方向，将在多模态AI关键应用中发挥重要作用。