Zing 论坛

正文

OmniSelect:多模态大模型的动态感知Token压缩技术

OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架,通过动态分配音频和视频的重要性比例,在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。

多模态大语言模型Token压缩视频理解音频处理模型优化推理加速开源项目
发布时间 2026/05/17 11:41最近活动 2026/05/17 11:55预计阅读 3 分钟
OmniSelect:多模态大模型的动态感知Token压缩技术
1

章节 01

导读 / 主楼:OmniSelect:多模态大模型的动态感知Token压缩技术

OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架,通过动态分配音频和视频的重要性比例,在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。

2

章节 02

多模态大模型的效率困境

随着 GPT-4V、Gemini、Qwen2.5-Omni 等多模态大语言模型的快速发展,AI 已经能够同时理解文本、图像、音频和视频。然而,这种能力的代价是惊人的计算开销——一个包含数分钟视频的输入可能产生数万个视觉 Token,加上音频 Token,总序列长度轻易超过模型的上下文限制。

传统的解决方案是均匀压缩所有模态的 Token,但这忽略了一个关键事实:不同查询对音频和视频的依赖程度是不同的。有些问题主要需要视频信息,有些则依赖音频,还有些需要两者结合。

如何在保持模型性能的同时高效压缩多模态 Token?OmniSelect 项目提出了一种创新的动态模态感知压缩方案。

3

章节 03

项目概述

OmniSelect 是一个完全无需训练的多模态 Token 压缩框架,专为全模态大语言模型设计。与现有使用固定模态指导的压缩方法不同,OmniSelect 能够根据当前查询动态判断音频、视频或两者的相对重要性,并据此分配压缩比例。

项目的核心创新在于引入了动态模态感知比例分配机制,结合时间组剪枝管道技术,在显著降低计算开销的同时,最大程度保留对当前查询有用的信息。

4

章节 04

动态模态感知比例分配

OmniSelect 的第一阶段使用 AudioCLIP 模型估计查询与音频、视频的相关性。基于这个估计,系统动态选择三种剪枝策略之一:

  • 视频中心剪枝:当查询主要依赖视觉信息时,保留更多视频 Token,大幅压缩音频 Token
  • 音频中心剪枝:当查询主要依赖听觉信息时,保留更多音频 Token,大幅压缩视频 Token
  • 均匀剪枝:当查询同等依赖两种模态时,采用平衡的压缩策略

这种动态分配机制确保有限的 Token 预算被用在最相关的模态上,而不是机械地平均分配。

5

章节 05

时间组剪枝管道

第二阶段执行实际的 Token 剪枝,包含两个关键步骤:

音频 Token 剪枝:采用注意力引导机制,识别并保留对当前查询最重要的音频片段。通过分析注意力权重分布,系统能够定位关键的时间窗口,去除静音或无关的音频部分。

视觉 Token 剪枝:基于 Bottom-K 相似度算法,保留与查询语义最相关的视觉 Token。该方法通过计算视觉特征与查询的相似度,优先保留信息量最大的图像区域。

6

章节 06

性能表现与实验结果

OmniSelect 在多个多模态基准测试上展现了卓越的性能:

7

章节 07

推理效率提升

  • 推理速度:1.19 倍至 1.33 倍加速
  • 显存占用:减少 2.58GB 至 2.77GB GPU 显存
  • 精度保持:保留完整 Token 设置下 94% 至 99% 的准确率
8

章节 08

基准测试对比

在 WorldSense 基准测试中(30% Token 保留率):

  • 完整 Token:45.62% 准确率
  • OmniZip(对比方法):41.83% 准确率
  • OmniSelect:44.42% 准确率

在 DailyOmni 基准测试中(45% Token 保留率):

  • 完整 Token:62.82% 准确率
  • OmniZip(对比方法):56.14% 准确率
  • OmniSelect:58.06% 准确率

可以看到,在相同的压缩比例下,OmniSelect 显著优于固定策略的压缩方法,接近完整 Token 设置的性能。