章节 01
【主楼】Tango框架:视频大模型高效推理的新突破
Tango是针对视频大模型效率问题提出的令牌剪枝框架,核心创新包括多样性驱动的注意力选择策略和时空旋转位置编码(ST-RoPE)。在仅保留10%视频令牌的情况下,能保持98.9%的原始性能,实现1.88倍推理加速,为视频大模型的高效推理提供新路径。
正文
Tango通过多样性驱动的注意力选择和时空旋转位置编码,在仅保留10%视频令牌的情况下保持98.9%性能,实现1.88倍推理加速。
章节 01
Tango是针对视频大模型效率问题提出的令牌剪枝框架,核心创新包括多样性驱动的注意力选择策略和时空旋转位置编码(ST-RoPE)。在仅保留10%视频令牌的情况下,能保持98.9%的原始性能,实现1.88倍推理加速,为视频大模型的高效推理提供新路径。
章节 02
视频大语言模型(Video LLM)能力突出,但视频时空特性导致令牌序列长度爆炸,推理慢、显存占用高。令牌剪枝是主流解决方案,核心为筛选关键令牌降低计算负担,现有路径包括基于注意力的选择和相似度聚类。
章节 03
Tango团队发现现有策略不足:1. 传统top-k注意力选择易遗漏信息互补区域,理解不全面;2. 相似度聚类易产生碎片化小簇,池化后表征扭曲影响后续任务。
章节 04
针对问题,Tango提出:1. 多样性驱动注意力选择:兼顾分数与区域多样性,覆盖不同时空片段;2. 时空旋转位置编码(ST-RoPE):显式建模时空连续性,保留原始几何结构。
章节 05
在主流Video LLM架构和基准测试中,Tango保留10%令牌时,LLaVA-OV模型保持98.9%性能,实现1.88倍加速,对实时视频应用(如直播问答)实用,且通用性良好。
章节 06
Tango强调综合信息多样性、几何结构与效率平衡,其剪枝路线有望成为视频大模型部署标准组件,助力研究者和工程师优化架构选择。