章节 01
导读:RLER——强化学习与证据选举结合的视频推理新范式
本文提出RLER双范式框架,通过强化学习训练模型生成结构化证据,再经无训练的证据加权选举机制选择可靠答案,在8个视频推理基准上取得SOTA,平均提升6.3%且仅需3.1个候选。
正文
本文提出了RLER双范式框架,通过强化学习训练模型生成结构化证据,再通过无训练的证据加权选举机制选择可靠答案,在8个视频推理基准上取得SOTA,平均提升6.3%且仅需3.1个候选。
章节 01
本文提出RLER双范式框架,通过强化学习训练模型生成结构化证据,再经无训练的证据加权选举机制选择可靠答案,在8个视频推理基准上取得SOTA,平均提升6.3%且仅需3.1个候选。
章节 02
视频推理需理解视觉内容并进行时序推理和因果推断,大型多模态模型(LMMs)虽带来新希望,但现有方法缺乏证据验证机制,存在推理与证据脱节问题,导致幻觉、不可解释性、脆弱性风险。
章节 03
RLER框架将视频推理分解为两个独立阶段:RLER-Training(强化学习生成结构化证据)和RLER-Inference(证据选举获得答案)。解耦设计使训练专注提升证据质量,推理专注利用证据决策,共同提升系统可靠性与可解释性。
章节 04
训练阶段采用群体相对强化学习,设计三项任务驱动奖励函数:帧敏感奖励(锚定关键帧)、思维透明奖励(结构化推理轨迹)、反重复奖励(提升信息密度),无需人工标注推理过程即可大规模应用。
章节 05
推理阶段通过编排器完成四步:生成3.1个多样化候选、解析候选答案与引用帧、从证据一致性/置信度/透明性/非冗余性四维度评分、加权选举选最可靠答案,减少误判。
章节 06
RLER在8个视频推理基准上获SOTA,平均提升6.3%;平均候选数仅3.1个,计算开销增加约2倍但性能提升显著;生成的推理轨迹透明度高,可验证性强,适用于高风险场景。
章节 07
RLER的启示:证据显式化提升可解释性与准确性;无需扩大模型参数即可提升性能;训练与推理阶段协同设计形成闭环,挖掘现有模型潜力。
章节 08
当前局限:仅关注问答任务,实时场景需优化;未来方向:探索高效候选生成、跨视频证据迁移、扩展至音频-文本等多模态推理。