Zing 论坛

正文

RLER:强化学习与证据选举结合的视频推理新范式

本文提出了RLER双范式框架,通过强化学习训练模型生成结构化证据,再通过无训练的证据加权选举机制选择可靠答案,在8个视频推理基准上取得SOTA,平均提升6.3%且仅需3.1个候选。

视频推理强化学习多模态模型证据选举可解释AIRLER
发布时间 2026/04/06 11:01最近活动 2026/04/07 15:52预计阅读 2 分钟
RLER:强化学习与证据选举结合的视频推理新范式
1

章节 01

导读:RLER——强化学习与证据选举结合的视频推理新范式

本文提出RLER双范式框架,通过强化学习训练模型生成结构化证据,再经无训练的证据加权选举机制选择可靠答案,在8个视频推理基准上取得SOTA,平均提升6.3%且仅需3.1个候选。

2

章节 02

视频推理的挑战与现状

视频推理需理解视觉内容并进行时序推理和因果推断,大型多模态模型(LMMs)虽带来新希望,但现有方法缺乏证据验证机制,存在推理与证据脱节问题,导致幻觉、不可解释性、脆弱性风险。

3

章节 03

RLER核心:学习与推理解耦的创新设计

RLER框架将视频推理分解为两个独立阶段:RLER-Training(强化学习生成结构化证据)和RLER-Inference(证据选举获得答案)。解耦设计使训练专注提升证据质量,推理专注利用证据决策,共同提升系统可靠性与可解释性。

4

章节 04

RLER训练阶段:三项创新奖励函数解析

训练阶段采用群体相对强化学习,设计三项任务驱动奖励函数:帧敏感奖励(锚定关键帧)、思维透明奖励(结构化推理轨迹)、反重复奖励(提升信息密度),无需人工标注推理过程即可大规模应用。

5

章节 05

RLER推理阶段:无训练的证据选举机制

推理阶段通过编排器完成四步:生成3.1个多样化候选、解析候选答案与引用帧、从证据一致性/置信度/透明性/非冗余性四维度评分、加权选举选最可靠答案,减少误判。

6

章节 06

实验验证:SOTA性能与效率的平衡

RLER在8个视频推理基准上获SOTA,平均提升6.3%;平均候选数仅3.1个,计算开销增加约2倍但性能提升显著;生成的推理轨迹透明度高,可验证性强,适用于高风险场景。

7

章节 07

技术意义:可信视频推理的新路径

RLER的启示:证据显式化提升可解释性与准确性;无需扩大模型参数即可提升性能;训练与推理阶段协同设计形成闭环,挖掘现有模型潜力。

8

章节 08

局限与未来:RLER的改进空间

当前局限:仅关注问答任务,实时场景需优化;未来方向:探索高效候选生成、跨视频证据迁移、扩展至音频-文本等多模态推理。