正文

RLER：强化学习与证据选举结合的视频推理新范式

本文提出了RLER双范式框架，通过强化学习训练模型生成结构化证据，再通过无训练的证据加权选举机制选择可靠答案，在8个视频推理基准上取得SOTA，平均提升6.3%且仅需3.1个候选。

视频推理强化学习多模态模型证据选举可解释AIRLER

发布时间 2026/04/06 11:01最近活动 2026/04/07 15:52预计阅读 2 分钟

章节 01

导读：RLER——强化学习与证据选举结合的视频推理新范式

本文提出RLER双范式框架，通过强化学习训练模型生成结构化证据，再经无训练的证据加权选举机制选择可靠答案，在8个视频推理基准上取得SOTA，平均提升6.3%且仅需3.1个候选。

章节 02

视频推理需理解视觉内容并进行时序推理和因果推断，大型多模态模型（LMMs）虽带来新希望，但现有方法缺乏证据验证机制，存在推理与证据脱节问题，导致幻觉、不可解释性、脆弱性风险。

章节 03

RLER框架将视频推理分解为两个独立阶段：RLER-Training（强化学习生成结构化证据）和RLER-Inference（证据选举获得答案）。解耦设计使训练专注提升证据质量，推理专注利用证据决策，共同提升系统可靠性与可解释性。

章节 04

训练阶段采用群体相对强化学习，设计三项任务驱动奖励函数：帧敏感奖励（锚定关键帧）、思维透明奖励（结构化推理轨迹）、反重复奖励（提升信息密度），无需人工标注推理过程即可大规模应用。

章节 05

推理阶段通过编排器完成四步：生成3.1个多样化候选、解析候选答案与引用帧、从证据一致性/置信度/透明性/非冗余性四维度评分、加权选举选最可靠答案，减少误判。

章节 06

RLER在8个视频推理基准上获SOTA，平均提升6.3%；平均候选数仅3.1个，计算开销增加约2倍但性能提升显著；生成的推理轨迹透明度高，可验证性强，适用于高风险场景。

章节 07

RLER的启示：证据显式化提升可解释性与准确性；无需扩大模型参数即可提升性能；训练与推理阶段协同设计形成闭环，挖掘现有模型潜力。

章节 08

当前局限：仅关注问答任务，实时场景需优化；未来方向：探索高效候选生成、跨视频证据迁移、扩展至音频-文本等多模态推理。