章节 01
导读:STRIVE——视频问答强化学习的稳定高效新方案
STRIVE(结构化时空探索强化学习)是针对视频问答强化学习(RL)训练中奖励方差低问题的创新方案。其核心思路是通过构建视频的时空变体,并跨文本生成与视觉变体进行联合归一化,显著提升奖励信号的丰富性,使优势估计更稳定。该方法在VideoMME、TempCompass等6个视频推理基准上持续超越强基线,有效解决了RL训练难以收敛或陷入局部最优的困境。
正文
STRIVE通过构建视频的时空变体并跨文本生成和视觉变体进行联合归一化,解决奖励方差低的问题,在6个视频推理基准上 consistently 超越强基线。
章节 01
STRIVE(结构化时空探索强化学习)是针对视频问答强化学习(RL)训练中奖励方差低问题的创新方案。其核心思路是通过构建视频的时空变体,并跨文本生成与视觉变体进行联合归一化,显著提升奖励信号的丰富性,使优势估计更稳定。该方法在VideoMME、TempCompass等6个视频推理基准上持续超越强基线,有效解决了RL训练难以收敛或陷入局部最优的困境。
章节 02
视频问答是多模态AI核心任务,需理解视频内容并回答问题。RL为其提供了无需逐token监督的训练范式,但在视频问答中面临奖励方差过低的独特挑战:当模型生成的多个回答正确性相似时,组内奖励差异小,导致优势估计微弱或不稳定,策略更新缺乏明确信号,训练难以收敛。
章节 03
STRIVE的核心洞察在于跨模态组比较:不仅比较不同文本回答,还生成视频的时空变体(如关键帧选择、时间范围调整、空间裁剪),将每个变体与文本回答组合形成(视频变体,文本回答)对。通过这种多维度比较(文本多样性、视觉多样性、跨模态交互),扩展了比较空间,提供更丰富的奖励信号,让优势估计更稳定有意义。
章节 04
STRIVE通过重要性感知采样机制构建时空变体:
章节 05
联合归一化的数学原理:对于输入视频V和问题Q,生成K个时空变体{V₁,...,Vₖ}和M个文本回答{A₁,...,Aₘ},形成K×M个组合,每个组合获奖励R(Vᵢ,Aⱼ)。联合归一化计算优势:A(Vᵢ,Aⱼ)=(R(Vᵢ,Aⱼ)-μ)/σ(μ、σ为所有组合奖励的均值和标准差)。相比仅文本归一化,联合归一化利用更大样本空间,估计更稳定,且迫使模型学习更鲁棒的视觉理解。
章节 06
STRIVE在6个视频推理基准(VideoMME、TempCompass、VideoMMMU、MMVU、VSI-Bench、PerceptionTest)上验证:
章节 07
启示:跨模态比较可提供更丰富训练信号,结构化探索(而非随机)是复杂多模态任务高效学习的关键,联合归一化提示应充分利用所有比较维度; 局限与未来:变体生成开销大需优化,依赖外部评估器可能传播偏见,长视频处理挑战大;未来可探索高效变体生成、与模型架构改进结合等方向。