正文

OmniSelect：多模态大模型的动态感知Token压缩技术

OmniSelect 是一种无需训练的多模态大语言模型 Token 压缩框架，通过动态分配音频和视频的重要性比例，在保持 94%-99% 精度的同时实现 1.19-1.33 倍推理加速和 2.5GB+ GPU 显存节省。

多模态大语言模型Token压缩视频理解音频处理模型优化推理加速开源项目

发布时间 2026/05/17 11:41最近活动 2026/05/17 11:55预计阅读 3 分钟

章节 01

导读 / 主楼：OmniSelect：多模态大模型的动态感知Token压缩技术

章节 02

多模态大模型的效率困境

随着 GPT-4V、Gemini、Qwen2.5-Omni 等多模态大语言模型的快速发展，AI 已经能够同时理解文本、图像、音频和视频。然而，这种能力的代价是惊人的计算开销——一个包含数分钟视频的输入可能产生数万个视觉 Token，加上音频 Token，总序列长度轻易超过模型的上下文限制。

传统的解决方案是均匀压缩所有模态的 Token，但这忽略了一个关键事实：不同查询对音频和视频的依赖程度是不同的。有些问题主要需要视频信息，有些则依赖音频，还有些需要两者结合。

如何在保持模型性能的同时高效压缩多模态 Token？OmniSelect 项目提出了一种创新的动态模态感知压缩方案。

章节 03

项目概述

OmniSelect 是一个完全无需训练的多模态 Token 压缩框架，专为全模态大语言模型设计。与现有使用固定模态指导的压缩方法不同，OmniSelect 能够根据当前查询动态判断音频、视频或两者的相对重要性，并据此分配压缩比例。

项目的核心创新在于引入了动态模态感知比例分配机制，结合时间组剪枝管道技术，在显著降低计算开销的同时，最大程度保留对当前查询有用的信息。

章节 04

动态模态感知比例分配

OmniSelect 的第一阶段使用 AudioCLIP 模型估计查询与音频、视频的相关性。基于这个估计，系统动态选择三种剪枝策略之一：

视频中心剪枝：当查询主要依赖视觉信息时，保留更多视频 Token，大幅压缩音频 Token
音频中心剪枝：当查询主要依赖听觉信息时，保留更多音频 Token，大幅压缩视频 Token
均匀剪枝：当查询同等依赖两种模态时，采用平衡的压缩策略

这种动态分配机制确保有限的 Token 预算被用在最相关的模态上，而不是机械地平均分配。

章节 05

时间组剪枝管道

第二阶段执行实际的 Token 剪枝，包含两个关键步骤：

音频 Token 剪枝：采用注意力引导机制，识别并保留对当前查询最重要的音频片段。通过分析注意力权重分布，系统能够定位关键的时间窗口，去除静音或无关的音频部分。

视觉 Token 剪枝：基于 Bottom-K 相似度算法，保留与查询语义最相关的视觉 Token。该方法通过计算视觉特征与查询的相似度，优先保留信息量最大的图像区域。

章节 06

性能表现与实验结果

OmniSelect 在多个多模态基准测试上展现了卓越的性能：

章节 07

推理效率提升

推理速度：1.19 倍至 1.33 倍加速
显存占用：减少 2.58GB 至 2.77GB GPU 显存
精度保持：保留完整 Token 设置下 94% 至 99% 的准确率

章节 08

基准测试对比

在 WorldSense 基准测试中（30% Token 保留率）：

完整 Token：45.62% 准确率
OmniZip（对比方法）：41.83% 准确率
OmniSelect：44.42% 准确率

在 DailyOmni 基准测试中（45% Token 保留率）：

完整 Token：62.82% 准确率
OmniZip（对比方法）：56.14% 准确率
OmniSelect：58.06% 准确率

可以看到，在相同的压缩比例下，OmniSelect 显著优于固定策略的压缩方法，接近完整 Token 设置的性能。

OmniSelect：多模态大模型的动态感知Token压缩技术

导读 / 主楼：OmniSelect：多模态大模型的动态感知Token压缩技术

多模态大模型的效率困境

项目概述

动态模态感知比例分配

时间组剪枝管道

性能表现与实验结果

推理效率提升

基准测试对比

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统