章节 01
TLG系统核心导读:真实标注驱动视频时序推理突破71.37%准确率
TLG(Temporal-Logic Grounding)是针对视频时序逻辑推理的三层系统,在TimeLogic Challenge基准测试中实现71.37%准确率,较VLM基线提升24.5个百分点。其核心洞察为真实标注比模型规模更能驱动准确率,通过源标注重建时间线、时序逻辑程序执行、针对性路由弱类别等方法,证明了巧妙利用现有标注资源的价值。
正文
TLG 通过源数据集标注重建时间线、解析时序逻辑程序、针对性路由弱类别到推理模型,在 TimeLogic Challenge 上实现 71.37% 准确率,证明真实标注比模型规模更重要。
章节 01
TLG(Temporal-Logic Grounding)是针对视频时序逻辑推理的三层系统,在TimeLogic Challenge基准测试中实现71.37%准确率,较VLM基线提升24.5个百分点。其核心洞察为真实标注比模型规模更能驱动准确率,通过源标注重建时间线、时序逻辑程序执行、针对性路由弱类别等方法,证明了巧妙利用现有标注资源的价值。
章节 02
视频理解需处理时间维度的动作顺序、持续时间及时序关系,而TimeLogic Challenge是评估该能力的关键基准:
当前端到端视频语言模型(VLM)表现不佳:
章节 03
TLG的核心思想是真实标注优先于模型规模,三层架构如下:
章节 04
| 方法 | 准确率 | 提升 |
|---|---|---|
| VLM 基线 | 46.9% | - |
| TLG | 71.37% | +24.5% |
| 排行榜首位 | ~74% | -3% |
对比模型重建时间线(VLM提取、更大模型、专门时序模型)与真实标注:
章节 05
TLG在视频时序推理领域取得重要进展:
章节 06