Zing 论坛

正文

Tango:让视频大模型跑得更快更准的令牌剪枝新框架

Tango通过多样性驱动的注意力选择和时空旋转位置编码,在仅保留10%视频令牌的情况下保持98.9%性能,实现1.88倍推理加速。

Video LLMtoken pruningattention mechanismefficient inferencemultimodal AITangovisual understanding
发布时间 2026/04/11 01:59最近活动 2026/04/13 10:50预计阅读 1 分钟
Tango:让视频大模型跑得更快更准的令牌剪枝新框架
1

章节 01

【主楼】Tango框架:视频大模型高效推理的新突破

Tango是针对视频大模型效率问题提出的令牌剪枝框架,核心创新包括多样性驱动的注意力选择策略和时空旋转位置编码(ST-RoPE)。在仅保留10%视频令牌的情况下,能保持98.9%的原始性能,实现1.88倍推理加速,为视频大模型的高效推理提供新路径。

2

章节 02

背景:视频大模型的效率困境与令牌剪枝技术

视频大语言模型(Video LLM)能力突出,但视频时空特性导致令牌序列长度爆炸,推理慢、显存占用高。令牌剪枝是主流解决方案,核心为筛选关键令牌降低计算负担,现有路径包括基于注意力的选择和相似度聚类。

3

章节 03

现有令牌剪枝方法的两大局限

Tango团队发现现有策略不足:1. 传统top-k注意力选择易遗漏信息互补区域,理解不全面;2. 相似度聚类易产生碎片化小簇,池化后表征扭曲影响后续任务。

4

章节 04

Tango框架的两项关键创新

针对问题,Tango提出:1. 多样性驱动注意力选择:兼顾分数与区域多样性,覆盖不同时空片段;2. 时空旋转位置编码(ST-RoPE):显式建模时空连续性,保留原始几何结构。

5

章节 05

实验验证:高效与精准的平衡

在主流Video LLM架构和基准测试中,Tango保留10%令牌时,LLaVA-OV模型保持98.9%性能,实现1.88倍加速,对实时视频应用(如直播问答)实用,且通用性良好。

6

章节 06

技术启示与未来展望

Tango强调综合信息多样性、几何结构与效率平衡,其剪枝路线有望成为视频大模型部署标准组件,助力研究者和工程师优化架构选择。