章节 01
导读 / 主楼:OmniSelect:多模态大模型的动态感知Token压缩技术
OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架,通过动态分配音频和视频的重要性比例,在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。
正文
OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架,通过动态分配音频和视频的重要性比例,在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。
章节 01
OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架,通过动态分配音频和视频的重要性比例,在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。
章节 02
随着 GPT-4V、Gemini、Qwen2.5-Omni 等多模态大语言模型的快速发展,AI 已经能够同时理解文本、图像、音频和视频。然而,这种能力的代价是惊人的计算开销——一个包含数分钟视频的输入可能产生数万个视觉 Token,加上音频 Token,总序列长度轻易超过模型的上下文限制。
传统的解决方案是均匀压缩所有模态的 Token,但这忽略了一个关键事实:不同查询对音频和视频的依赖程度是不同的。有些问题主要需要视频信息,有些则依赖音频,还有些需要两者结合。
如何在保持模型性能的同时高效压缩多模态 Token?OmniSelect 项目提出了一种创新的动态模态感知压缩方案。
章节 03
OmniSelect 是一个完全无需训练的多模态 Token 压缩框架,专为全模态大语言模型设计。与现有使用固定模态指导的压缩方法不同,OmniSelect 能够根据当前查询动态判断音频、视频或两者的相对重要性,并据此分配压缩比例。
项目的核心创新在于引入了动态模态感知比例分配机制,结合时间组剪枝管道技术,在显著降低计算开销的同时,最大程度保留对当前查询有用的信息。
章节 04
OmniSelect 的第一阶段使用 AudioCLIP 模型估计查询与音频、视频的相关性。基于这个估计,系统动态选择三种剪枝策略之一:
这种动态分配机制确保有限的 Token 预算被用在最相关的模态上,而不是机械地平均分配。
章节 05
第二阶段执行实际的 Token 剪枝,包含两个关键步骤:
音频 Token 剪枝:采用注意力引导机制,识别并保留对当前查询最重要的音频片段。通过分析注意力权重分布,系统能够定位关键的时间窗口,去除静音或无关的音频部分。
视觉 Token 剪枝:基于 Bottom-K 相似度算法,保留与查询语义最相关的视觉 Token。该方法通过计算视觉特征与查询的相似度,优先保留信息量最大的图像区域。
章节 06
OmniSelect 在多个多模态基准测试上展现了卓越的性能:
章节 07
章节 08
在 WorldSense 基准测试中(30% Token 保留率):
在 DailyOmni 基准测试中(45% Token 保留率):
可以看到,在相同的压缩比例下,OmniSelect 显著优于固定策略的压缩方法,接近完整 Token 设置的性能。