章节 01
导读 / 主楼:OmniSelect:面向全模态大语言模型的动态模态感知Token压缩框架
OmniSelect是一个无需训练的全模态大语言模型Token压缩框架,通过动态判断音频、视频或双模态的重要性,实现1.19-1.33倍推理加速和2.58-2.77GB显存节省,同时保持94%-99%的完整Token精度。
正文
OmniSelect是一个无需训练的全模态大语言模型Token压缩框架,通过动态判断音频、视频或双模态的重要性,实现1.19-1.33倍推理加速和2.58-2.77GB显存节省,同时保持94%-99%的完整Token精度。
章节 01
OmniSelect是一个无需训练的全模态大语言模型Token压缩框架,通过动态判断音频、视频或双模态的重要性,实现1.19-1.33倍推理加速和2.58-2.77GB显存节省,同时保持94%-99%的完整Token精度。
章节 02
conda create -n omniselect python=3.10 conda activate omniselect pip install -r requirements.txt bash /path/to/scripts/infer_worldsense.sh bash /path/to/scripts/infer_dailyomni.sh bash /path/to/scripts/infer_omnivideo.sh ```\n\n项目已在WorldSense、DailyOmni、OmniVideoBench、VideoMME等主流基准上验证,并计划投稿至NeurIPS 2026。开发者社区可以基于该项目进一步探索动态Token压缩在多模态学习中的潜力。\n\n## 总结与展望\n\nOmniSelect代表了全模态大模型效率优化的新方向——从静态、均匀的压缩策略转向动态、模态感知的自适应方案。这种范式转变不仅带来了可量化的性能提升,更重要的是为未来的多模态模型设计提供了新思路:效率优化应当与任务语义紧密结合,而非孤立进行。\n\n随着多模态大模型向更长序列、更多模态的方向发展,Token压缩技术的重要性将愈发凸显。OmniSelect的训练无关特性使其具备良好的通用性和可迁移性,有望成为全模态模型部署的标准组件。
章节 03
背景:全模态大模型的效率瓶颈\n\n随着Qwen2.5-Omni等全模态大语言模型(OmniLLMs)的兴起,模型能够同时处理文本、图像、音频和视频等多种模态输入。然而,多模态Token的爆炸式增长带来了严重的计算效率问题——视频帧和音频波形经过编码后会产生海量Token,导致推理速度缓慢和显存占用过高。\n\n传统的压缩方法通常采用固定的模态处理策略,无论查询内容如何,都以相同比例压缩各模态的Token。这种"一刀切"的做法忽视了不同查询对模态依赖程度的差异:有些问题主要依赖视觉信息,有些则侧重音频线索,还有些需要双模态协同理解。\n\nOmniSelect的核心创新\n\nOmniSelect提出了一种动态模态感知的Token压缩范式,其核心思想是:根据查询语义动态决定音频、视频或双模态的重要性权重,从而自适应地分配压缩比例。\n\n两大核心组件\n\n1. 模态感知动态比例分配(Modality-Aware Dynamic Ratio Allocation)\n\n该阶段利用AudioCLIP模型估计查询与音频、视频内容的相关性。通过计算查询文本与各模态特征的相似度,系统能够智能判断当前任务更依赖哪种模态。例如,当查询涉及"背景音乐"或"对话内容"时,音频模态获得更高权重;而当查询关注"画面中的动作"或"场景变化"时,视频模态优先。\n\n基于相关性估计,系统从三种剪枝策略中选择最优方案:\n- 视频中心剪枝(Video-Centric):保留更多视觉Token,大幅压缩音频Token\n- 音频中心剪枝(Audio-Centric):保留更多音频Token,大幅压缩视觉Token\n- 均匀剪枝(Uniform):平衡压缩两个模态\n\n2. 时序分组剪枝管道TGP²(Temporal Group Pruning Pipeline)\n\n在确定剪枝策略后,TGP²执行细粒度的Token选择:\n\n- 音频Token剪枝:基于注意力引导机制,识别并移除对最终输出贡献较小的音频片段\n- 视觉Token剪枝:采用Bottom-K相似度策略,保留与查询最相关的视觉区域,剪除冗余的时空信息\n\n这种分层设计既保证了粗粒度的模态级优化,又实现了细粒度的Token级筛选。\n\n性能表现:效率与精度的双赢\n\nOmniSelect在多个权威基准测试中展现出卓越的性能:\n\n推理效率提升\n\n在Qwen2.5-Omni-3B模型上,OmniSelect实现了1.19倍推理加速,显存占用减少2.61GB;在7B模型上,加速比提升至1.33倍,显存节省达2.80GB。这意味着在同等硬件条件下,可以处理更长的多模态序列或部署更大规模的模型。\n\n精度保持能力\n\n在WorldSense和DailyOmni等音频-视觉推理基准上,当仅保留30% Token时,OmniSelect的准确率分别达到44.42%和58.06%,显著优于同等压缩率的OmniZip方法(41.83%和56.14%),接近完整Token的45.62%和62.82%水平。\n\n更值得注意的是,OmniSelect在保持94%-99%完整Token精度的同时,实现了显著的效率提升,这在实际部署中意味着几乎无损的用户体验。\n\n技术亮点与工程实践\n\n完全免训练(Training-Free)\n\nOmniSelect的最大优势在于无需任何微调或训练。框架利用预训练的AudioCLIP和注意力机制,通过轻量级的相关性计算和相似度排序完成Token选择。这使得该方法可以无缝集成到任何现有的全模态大模型中,无需担心领域适配或训练成本。\n\n动态适应性\n\n与静态压缩策略不同,OmniSelect为每个查询独立计算最优压缩方案。这种实例级优化确保了不同场景下都能获得最佳效率-精度权衡。无论是音乐识别、动作分析还是多模态对话,系统都能自动调整策略。\n\n灵活的部署配置\n\n项目支持多种配置选项:\n- 视频帧率:默认2 FPS,可根据需求调整\n- 帧预算:支持32、64、128、512帧(VideoMME)等多种设置\n- 分辨率:128×28×28的紧凑表示\n- 兼容模型:Qwen2.5-Omni-3B和7B\n\n应用场景与实用价值\n\nOmniSelect的技术方案在多个实际场景中具有直接应用价值:\n\n实时多模态对话系统:在智能音箱、车载助手等场景中,降低延迟意味着更自然的交互体验。1.3倍的加速可以使响应时间从3秒降至2秒,显著提升用户满意度。\n\n边缘设备部署:2.5GB以上的显存节省对于资源受限的边缘设备至关重要。这使得原本需要高端GPU的全模态模型有可能在消费级显卡甚至移动设备上运行。\n\n长视频理解:当处理小时级别的视频内容时,Token压缩成为刚需。OmniSelect的动态策略确保关键信息不被过度压缩,同时控制计算规模在可接受范围内。\n\n多模态内容审核:在需要实时分析直播或短视频内容的场景中,效率提升直接转化为成本节约和吞吐量提升。\n\n项目生态与复现指南\n\nOmniSelect项目提供了完整的复现支持:\n\n```bash
章节 04
conda create -n omniselect python=3.10 conda activate omniselect pip install -r requirements.txt bash /path/to/scripts/infer_worldsense.sh bash /path/to/scripts/infer_dailyomni.sh bash /path/to/scripts/infer_omnivideo.sh ```\n\n项目已在WorldSense、DailyOmni、OmniVideoBench、VideoMME等主流基准上验证,并计划投稿至NeurIPS 2026。开发者社区可以基于该项目进一步探索动态Token压缩在多模态学习中的潜力。\n\n总结与展望\n\nOmniSelect代表了全模态大模型效率优化的新方向——从静态、均匀的压缩策略转向动态、模态感知的自适应方案。这种范式转变不仅带来了可量化的性能提升,更重要的是为未来的多模态模型设计提供了新思路:效率优化应当与任务语义紧密结合,而非孤立进行。\n\n随着多模态大模型向更长序列、更多模态的方向发展,Token压缩技术的重要性将愈发凸显。OmniSelect的训练无关特性使其具备良好的通用性和可迁移性,有望成为全模态模型部署的标准组件。