正文

LiteLVLM：无需训练的高效视觉语言模型Token剪枝技术

LiteLVLM通过反转CLIP的视觉-文本相似度，实现了无需训练即可在像素级定位任务中高效剪枝视觉Token，在保持90%性能的同时实现2.2倍加速和2.3倍内存优化。

视觉语言模型Token剪枝CLIP像素级定位模型效率多模态AIICML 2026

发布时间 2026/05/06 14:15最近活动 2026/05/06 14:23预计阅读 2 分钟

章节 01

【主楼】LiteLVLM：无需训练的高效视觉语言模型Token剪枝技术导读

世宗大学计算机视觉研究组提出的LiteLVLM技术，通过反转CLIP的视觉-文本相似度机制，实现无需任何训练或微调的高效Token剪枝。该技术在像素级定位任务中保持约90%性能的同时，实现2.2倍推理加速和2.3倍内存优化，为大型视觉语言模型的高效部署提供新方案。

章节 02

大型视觉语言模型（LVLM）中视觉Token占输入序列80%以上，导致严重计算瓶颈。现有Token剪枝方法多针对图像理解任务，基于视觉特征内在重要性排序，但在像素级定位任务中表现不佳——同一视觉区域对不同文本查询的重要性差异大，传统策略忽略文本引导的关键信息。

章节 03

LiteLVLM的核心洞察来自CLIP分析：目标对象区域内的视觉Token往往与文本查询的CLIP相似度较低。这是因为CLIP基于全局图像特征匹配文本，而局部Token语义与全局表示存在差异，目标区域Token虽含关键信息但相似度反而低。

章节 04

LiteLVLM采用两阶段剪枝流程：1. 保留与文本查询CLIP相似度较低的视觉Token（对应目标区域）；2. 恢复部分上下文Token，解决前景-背景边界模糊问题，确保精细空间信息保留。

章节 05

在RefCOCO、RefCOCO+等指代表达分割数据集上评估显示：仅保留192个Token时保持原始模型约90%定位精度；推理速度提升2.2倍；GPU内存使用减少2.3倍；且完全无需训练或微调，可直接应用于任何基于CLIP的LVLM。

章节 06

技术贡献：揭示CLIP在细粒度定位任务的内在特性，为LVLM设计提供新思路。应用场景：边缘设备部署、实时交互式系统、云端成本优化、多模态AI Agent后端等。

章节 07

LiteLVLM通过简洁设计解决视觉Token冗余问题，其"反转CLIP相似度"思路反直觉且深刻。作为ICML 2026接收论文，代表高效多模态推理领域最新进展，未来将在降低部署成本、扩大LVLM应用范围中发挥重要作用。