正文

VideoRouter：双路由框架实现高效长视频理解，token减少67.9%

VideoRouter通过语义路由和图像路由的双路由机制，根据查询自适应地分配视觉token预算，在关键证据帧保留高分辨率细节的同时对无关帧进行激进压缩，在VideoMME等基准上实现高达67.9%的token削减。

VideoRouter长视频理解视觉Token压缩查询自适应多模态模型InternVL视频问答Token预算

发布时间 2026/05/07 16:23最近活动 2026/05/08 11:55预计阅读 2 分钟

章节 01

VideoRouter核心导读：双路由框架解决长视频Token危机，削减67.9%Token

长视频理解面临视觉Token序列爆炸的可扩展性瓶颈，VideoRouter通过语义路由和图像路由的双路由机制，根据查询自适应分配视觉Token预算，在关键证据帧保留高分辨率细节的同时对无关帧激进压缩，在VideoMME等基准上实现高达67.9%的Token削减，且保持甚至提升理解准确性。

章节 02

长视频理解的视觉Token危机与现有方法局限

问题根源

长视频包含数百至数千帧，转换为视觉Token后序列长度达数万甚至数十万，导致Transformer架构的内存、计算复杂度平方增长，且易超出上下文窗口限制。

现有方法局限

弱查询感知：编码时不知用户问题，统一压缩策略无法优化；
固定压缩策略：对所有帧应用相同策略，忽略视觉证据时间分布不均；
信息损失：激进压缩易丢失关键细节，降低回答准确性。

章节 03

VideoRouter双路由框架与训练数据构建

双路由机制

语义路由器：宏观选择策略（广泛时间覆盖/自适应高分辨率保留），基于查询语义特征预测；
图像路由器：微观选择帧，用LLM早期层评估帧与查询相关性，差异化处理高/低相关帧。

预算约束分配

动态分配Token预算，关键帧获更多预算，根据重要性自适应分辨率，智能时间采样。

训练数据

Video-QTR-10K：10K视频-查询对，标注最优分配策略；
Video-FLR-200K：20万视频-查询对，标注帧级相关性分数。

章节 04

实验结果：67.9%Token削减与性能保持

基准数据集

VideoMME（综合）、MLVU（多语言）、LongVideoBench（超长视频）。

核心结果

Token削减：高达67.9%；
准确性：与基线InternVL相当或更好；
延迟降低、内存效率提升。

基线对比

优于统一采样、启发式压缩、端到端学习基线，查询自适应策略更准确、可解释。

章节 05

技术深度：双路由有效的关键原因

分层决策优势

解耦复杂度、可解释性强、模块化设计易优化。

早期LLM层价值

计算效率高、语义丰富、与下游任务标准一致。

预算约束优化

资源可预测、保证服务质量、优化目标明确。

章节 06

VideoRouter的实际应用场景

视频问答：根据问题动态调整策略（整体流程/细节）；
内容审核：快速过滤无关内容，详细分析可疑片段；
教育视频分析：定位相关片段、生成摘要、支持自适应学习；
监控视频检索：快速检索事件、定位关键画面、支持自然语言交互。

章节 07

局限与未来研究方向

局限

训练数据规模有限、多模态融合不足、缺乏在线学习能力、极端长视频处理待优化、因果推理支持弱。

未来方向

探索高效视觉编码器、层次化视频表示、领域专用路由策略、扩展到长文档/音频等模态。

章节 08

结语：智能Token分配的启示

VideoRouter证明智能Token分配策略显著优于统一压缩，在削减67.9%Token的同时保持准确性。这一成果对视频理解领域意义重大，也为其他长序列AI应用提供启示：主动智能分配资源而非被动接受长序列挑战。未来将成为处理视频数据的关键基础设施。