Zing 论坛

正文

VideoRouter:双路由框架实现高效长视频理解,token减少67.9%

VideoRouter通过语义路由和图像路由的双路由机制,根据查询自适应地分配视觉token预算,在关键证据帧保留高分辨率细节的同时对无关帧进行激进压缩,在VideoMME等基准上实现高达67.9%的token削减。

VideoRouter长视频理解视觉Token压缩查询自适应多模态模型InternVL视频问答Token预算
发布时间 2026/05/07 16:23最近活动 2026/05/08 11:55预计阅读 2 分钟
VideoRouter:双路由框架实现高效长视频理解,token减少67.9%
1

章节 01

VideoRouter核心导读:双路由框架解决长视频Token危机,削减67.9%Token

长视频理解面临视觉Token序列爆炸的可扩展性瓶颈,VideoRouter通过语义路由和图像路由的双路由机制,根据查询自适应分配视觉Token预算,在关键证据帧保留高分辨率细节的同时对无关帧激进压缩,在VideoMME等基准上实现高达67.9%的Token削减,且保持甚至提升理解准确性。

2

章节 02

长视频理解的视觉Token危机与现有方法局限

问题根源

长视频包含数百至数千帧,转换为视觉Token后序列长度达数万甚至数十万,导致Transformer架构的内存、计算复杂度平方增长,且易超出上下文窗口限制。

现有方法局限

  • 弱查询感知:编码时不知用户问题,统一压缩策略无法优化;
  • 固定压缩策略:对所有帧应用相同策略,忽略视觉证据时间分布不均;
  • 信息损失:激进压缩易丢失关键细节,降低回答准确性。
3

章节 03

VideoRouter双路由框架与训练数据构建

双路由机制

  • 语义路由器:宏观选择策略(广泛时间覆盖/自适应高分辨率保留),基于查询语义特征预测;
  • 图像路由器:微观选择帧,用LLM早期层评估帧与查询相关性,差异化处理高/低相关帧。

预算约束分配

动态分配Token预算,关键帧获更多预算,根据重要性自适应分辨率,智能时间采样。

训练数据

  • Video-QTR-10K:10K视频-查询对,标注最优分配策略;
  • Video-FLR-200K:20万视频-查询对,标注帧级相关性分数。
4

章节 04

实验结果:67.9%Token削减与性能保持

基准数据集

VideoMME(综合)、MLVU(多语言)、LongVideoBench(超长视频)。

核心结果

  • Token削减:高达67.9%;
  • 准确性:与基线InternVL相当或更好;
  • 延迟降低、内存效率提升。

基线对比

优于统一采样、启发式压缩、端到端学习基线,查询自适应策略更准确、可解释。

5

章节 05

技术深度:双路由有效的关键原因

分层决策优势

解耦复杂度、可解释性强、模块化设计易优化。

早期LLM层价值

计算效率高、语义丰富、与下游任务标准一致。

预算约束优化

资源可预测、保证服务质量、优化目标明确。

6

章节 06

VideoRouter的实际应用场景

  • 视频问答:根据问题动态调整策略(整体流程/细节);
  • 内容审核:快速过滤无关内容,详细分析可疑片段;
  • 教育视频分析:定位相关片段、生成摘要、支持自适应学习;
  • 监控视频检索:快速检索事件、定位关键画面、支持自然语言交互。
7

章节 07

局限与未来研究方向

局限

训练数据规模有限、多模态融合不足、缺乏在线学习能力、极端长视频处理待优化、因果推理支持弱。

未来方向

探索高效视觉编码器、层次化视频表示、领域专用路由策略、扩展到长文档/音频等模态。

8

章节 08

结语:智能Token分配的启示

VideoRouter证明智能Token分配策略显著优于统一压缩,在削减67.9%Token的同时保持准确性。这一成果对视频理解领域意义重大,也为其他长序列AI应用提供启示:主动智能分配资源而非被动接受长序列挑战。未来将成为处理视频数据的关键基础设施。