Zing 论坛

正文

STRIVE:结构化时空探索让视频问答的强化学习更稳定高效

STRIVE通过构建视频的时空变体并跨文本生成和视觉变体进行联合归一化,解决奖励方差低的问题,在6个视频推理基准上 consistently 超越强基线。

视频问答STRIVE强化学习多模态时空探索VideoMMEGRPO联合归一化重要性采样
发布时间 2026/04/02 17:35最近活动 2026/04/03 09:25预计阅读 2 分钟
STRIVE:结构化时空探索让视频问答的强化学习更稳定高效
1

章节 01

导读:STRIVE——视频问答强化学习的稳定高效新方案

STRIVE(结构化时空探索强化学习)是针对视频问答强化学习(RL)训练中奖励方差低问题的创新方案。其核心思路是通过构建视频的时空变体,并跨文本生成与视觉变体进行联合归一化,显著提升奖励信号的丰富性,使优势估计更稳定。该方法在VideoMME、TempCompass等6个视频推理基准上持续超越强基线,有效解决了RL训练难以收敛或陷入局部最优的困境。

2

章节 02

背景:视频问答强化学习的核心困境

视频问答是多模态AI核心任务,需理解视频内容并回答问题。RL为其提供了无需逐token监督的训练范式,但在视频问答中面临奖励方差过低的独特挑战:当模型生成的多个回答正确性相似时,组内奖励差异小,导致优势估计微弱或不稳定,策略更新缺乏明确信号,训练难以收敛。

3

章节 03

STRIVE核心洞察:跨模态组比较的创新思路

STRIVE的核心洞察在于跨模态组比较:不仅比较不同文本回答,还生成视频的时空变体(如关键帧选择、时间范围调整、空间裁剪),将每个变体与文本回答组合形成(视频变体,文本回答)对。通过这种多维度比较(文本多样性、视觉多样性、跨模态交互),扩展了比较空间,提供更丰富的奖励信号,让优势估计更稳定有意义。

4

章节 04

时空变体构建:重要性感知的结构化探索

STRIVE通过重要性感知采样机制构建时空变体:

  1. 帧重要性评估:通过问题-帧对齐、时序注意力、多尺度分析识别与问题相关的关键帧;
  2. 变体生成策略
    • 时间变体:高重要性采样、均匀采样、随机扰动;
    • 空间变体:空间裁剪、多尺度视图、注意力引导。 这种设计确保变体是结构化且与问题相关的语义扰动,而非随机噪声。
5

章节 05

联合归一化:稳定优势估计的数学基础

联合归一化的数学原理:对于输入视频V和问题Q,生成K个时空变体{V₁,...,Vₖ}和M个文本回答{A₁,...,Aₘ},形成K×M个组合,每个组合获奖励R(Vᵢ,Aⱼ)。联合归一化计算优势:A(Vᵢ,Aⱼ)=(R(Vᵢ,Aⱼ)-μ)/σ(μ、σ为所有组合奖励的均值和标准差)。相比仅文本归一化,联合归一化利用更大样本空间,估计更稳定,且迫使模型学习更鲁棒的视觉理解。

6

章节 06

实验验证:六大基准全面领先的成果

STRIVE在6个视频推理基准(VideoMME、TempCompass、VideoMMMU、MMVU、VSI-Bench、PerceptionTest)上验证:

  • 结果:平均准确率提升3-8个百分点,训练奖励曲线更平滑、收敛更快,泛化能力更强;
  • 消融实验:去掉时空变体/重要性感知采样/联合归一化,性能均明显下降,验证各组件价值。
7

章节 07

启示与展望:多模态RL的未来方向

启示:跨模态比较可提供更丰富训练信号,结构化探索(而非随机)是复杂多模态任务高效学习的关键,联合归一化提示应充分利用所有比较维度; 局限与未来:变体生成开销大需优化,依赖外部评估器可能传播偏见,长视频处理挑战大;未来可探索高效变体生成、与模型架构改进结合等方向。