正文

Tango：让视频大模型跑得更快更准的令牌剪枝新框架

Tango通过多样性驱动的注意力选择和时空旋转位置编码，在仅保留10%视频令牌的情况下保持98.9%性能，实现1.88倍推理加速。

Video LLMtoken pruningattention mechanismefficient inferencemultimodal AITangovisual understanding

发布时间 2026/04/11 01:59最近活动 2026/04/13 10:50预计阅读 1 分钟

章节 01

【主楼】Tango框架：视频大模型高效推理的新突破

Tango是针对视频大模型效率问题提出的令牌剪枝框架，核心创新包括多样性驱动的注意力选择策略和时空旋转位置编码（ST-RoPE）。在仅保留10%视频令牌的情况下，能保持98.9%的原始性能，实现1.88倍推理加速，为视频大模型的高效推理提供新路径。

章节 02

视频大语言模型（Video LLM）能力突出，但视频时空特性导致令牌序列长度爆炸，推理慢、显存占用高。令牌剪枝是主流解决方案，核心为筛选关键令牌降低计算负担，现有路径包括基于注意力的选择和相似度聚类。

章节 03

Tango团队发现现有策略不足：1. 传统top-k注意力选择易遗漏信息互补区域，理解不全面；2. 相似度聚类易产生碎片化小簇，池化后表征扭曲影响后续任务。

章节 04

针对问题，Tango提出：1. 多样性驱动注意力选择：兼顾分数与区域多样性，覆盖不同时空片段；2. 时空旋转位置编码（ST-RoPE）：显式建模时空连续性，保留原始几何结构。

章节 05

在主流Video LLM架构和基准测试中，Tango保留10%令牌时，LLaVA-OV模型保持98.9%性能，实现1.88倍加速，对实时视频应用（如直播问答）实用，且通用性良好。

章节 06

Tango强调综合信息多样性、几何结构与效率平衡，其剪枝路线有望成为视频大模型部署标准组件，助力研究者和工程师优化架构选择。