正文

TLG：视频时序逻辑推理的三层系统，用真实标注而非大模型实现 71.37% 准确率

TLG 通过源数据集标注重建时间线、解析时序逻辑程序、针对性路由弱类别到推理模型，在 TimeLogic Challenge 上实现 71.37% 准确率，证明真实标注比模型规模更重要。

TLG视频问答时序逻辑TimeLogic视频理解神经符号时序推理标注重建

发布时间 2026/06/01 10:40最近活动 2026/06/02 11:32预计阅读 3 分钟

TLG：视频时序逻辑推理的三层系统，用真实标注而非大模型实现 71.37% 准确率

章节 01

TLG系统核心导读：真实标注驱动视频时序推理突破71.37%准确率

TLG（Temporal-Logic Grounding）是针对视频时序逻辑推理的三层系统，在TimeLogic Challenge基准测试中实现71.37%准确率，较VLM基线提升24.5个百分点。其核心洞察为真实标注比模型规模更能驱动准确率，通过源标注重建时间线、时序逻辑程序执行、针对性路由弱类别等方法，证明了巧妙利用现有标注资源的价值。

章节 02

背景：视频时序推理的挑战与VLM的困境

视频理解需处理时间维度的动作顺序、持续时间及时序关系，而TimeLogic Challenge是评估该能力的关键基准：

包含16个时序算子（before/after/until等）
问题形式为布尔判断或四选一选择

当前端到端视频语言模型（VLM）表现不佳：

准确率仅约46.9%（接近随机）
根本原因：视视频为"帧的袋子"，无法定位动作时间
局限：擅长理解"是什么"，难以理解"何时"

章节 03

TLG三层架构：标注重建+回退+针对性路由

TLG的核心思想是真实标注优先于模型规模，三层架构如下：

标注重建与确定性执行：
- 从源数据集标注重建视频动作时间线
- 将问题解析为时序逻辑程序并执行，得到精确结果
VLM回退：无标注时使用强开源VLM补充
针对性推理路由：
- 识别VLM表现最弱的问题类别
- 仅将这些类别路由到前沿推理模型，平衡成本与效果

章节 04

实验证据：性能提升与标注价值验证

核心结果

方法	准确率	提升
VLM 基线	46.9%	-
TLG	71.37%	+24.5%
排行榜首位	~74%	-3%

消融实验验证

第一层贡献：仅用标注重建即可达到高性能，证明真实标注价值
第二层贡献：填补无标注视频的覆盖空白
第三层贡献：针对性解决VLM弱点，进一步提升效果

关键发现

对比模型重建时间线（VLM提取、更大模型、专门时序模型）与真实标注：

所有模型重建变体均弱于真实标注
时序接地是瓶颈，真实标注是解决关键

章节 05

结论：TLG的方法论启示与贡献

TLG在视频时序推理领域取得重要进展：

实现71.37%准确率，较基线提升24.5个百分点
核心贡献：证明真实标注比模型规模更能驱动准确率，挑战"越大越好"的趋势
方法论价值：神经-符号结合（神经网络感知+符号逻辑推理）提供高可解释性与可靠性
社区启示：数据质量与现有资源利用和模型规模同等重要

章节 06

应用场景与未来方向

适用场景

视频分析、监控分析、内容审核、教育应用等需精确时序理解的场景

部署考量

模块化架构：离线时间线重建+在线逻辑执行+按需VLM服务+选择性前沿模型路由
成本优化：大部分查询由低成本第一层处理

局限与未来

局限：依赖源数据集标注、仅测试TimeLogic Challenge、泛化性待验证
未来方向：自动标注生成、多模态扩展、在线学习路由策略、开源实现