# iLLaVA：将多模态大模型的视觉token压缩至1/3以下，ICLR 2026接收

> 天津大学团队提出iLLaVA方法，通过在视觉编码器和LLM阶段递归合并冗余视觉token，实现端到端加速，吞吐量提升2倍，预填充时间减少4倍，同时保持模型性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-28T10:44:16.000Z
- 最近活动: 2026-03-28T10:49:22.894Z
- 热度: 157.9
- 关键词: 多模态大模型, 视觉语言模型, token压缩, 模型加速, ICLR 2026, Qwen3-VL, 视觉编码器优化
- 页面链接: https://www.zingnex.cn/forum/thread/illava-token1-3-iclr-2026
- Canonical: https://www.zingnex.cn/forum/thread/illava-token1-3-iclr-2026
- Markdown 来源: ingested_event

---

# iLLaVA：将多模态大模型的视觉token压缩至1/3以下

## 研究背景与动机

大型视觉语言模型（LVLMs）近年来取得了显著进展，但视觉输入的高冗余性一直是制约其效率的关键瓶颈。现有的加速方法大多聚焦于在LLM阶段减少图像token数量以降低计算成本，却忽视了另一个重要的计算瓶颈——视觉编码器本身。事实上，视觉编码器是向LLM提供输入token的主要来源，因此在编码器阶段减少视觉冗余不仅能加速编码器本身，还能显著减轻后续LLM的工作负载。

天津大学的研究团队基于这一观察，提出了iLLaVA方法，旨在联合优化视觉编码器和LLM，实现真正的端到端加速。该研究已被ICLR 2026接收，代码已开源。

## 核心方法：递归token合并策略

iLLaVA的核心创新在于提出了一种新颖的token合并策略，该策略在两个阶段同时发挥作用：

### 视觉编码器阶段（ViT Stage）

在视觉编码器内部，iLLaVA选择性地在特定层进行token合并。默认配置在第5、6、7、8层进行合并，每层的token保留比例设为0.85。这种早期压缩策略直接减少了进入LLM的视觉token数量，从源头上降低了计算负载。

### LLM阶段

在LLM内部，iLLaVA继续在特定层（默认第19、21、23、25层）进行token合并，保留比例为0.9。这种双重压缩策略确保了视觉信息在传输过程中的高效性。

### 信息回收机制

为避免因token减少导致的性能下降，iLLaVA设计了一种信息回收机制。在合并token时，系统会从被丢弃的token中提取有用信息并整合到保留的token中，确保关键视觉信息不会丢失。这一机制是iLLaVA能够在大幅压缩token数量的同时保持模型性能的关键。

## 技术实现与参数配置

iLLaVA基于Qwen3-VL和LLaVA-OneVision实现，提供了丰富的配置选项：

- **enable_illava_vit**：是否在ViT阶段启用iLLaVA（默认：True）
- **illava_vit_k**：ViT阶段进行token合并的层，如"5-6-7-8"表示第5、6、7、8层
- **illava_vit_r**：ViT阶段每层保留的token比例（默认：0.85）
- **illava_vit_mode**：ViT阶段的合并模式，支持三种策略：1=直接丢弃最低分token，2=移位合并，3=基于Pv^i/Pv^c的聚类（默认：3）
- **enable_illava_llm**：是否在LLM阶段启用iLLaVA（默认：True）
- **illava_llm_k**：LLM阶段进行token合并的层（默认："19-21-23-25"）
- **illava_llm_r**：LLM阶段每层保留的token比例（默认：0.9）
- **illava_llm_mode**：LLM阶段的合并模式（默认：3）

这种灵活的配置方式允许用户根据具体应用场景和硬件条件调整压缩策略，在效率与性能之间取得平衡。

## 实验结果与性能评估

iLLaVA在多个图像和视频理解基准测试上进行了全面评估，结果令人印象深刻：

### 效率提升

- **吞吐量**：实现高达2倍的吞吐量提升
- **预填充时间**：减少4倍的预填充时间
- **内存占用**：实现1.7至2倍的内存减少

### 性能保持

值得注意的是，iLLaVA在大幅提升效率的同时，保持了与原始模型相当的准确性。更令人惊讶的是，iLLaVA使得更大的模型（如InternVL-2.5 26B）在准确性和效率上都能超越较小的模型（如InternVL-2.5 8B），打破了传统上"大模型慢但准、小模型快但糙"的权衡困境。

### 基准测试覆盖

iLLaVA支持广泛的评估基准，包括：
- **图像理解**：MMMU、MME、MMStar、MMBench、MMVet、AI2D、ScienceQA、MUIRBench、RealWorldQA等
- **视频理解**：Video-MME、InternVid等

## 与现有方法的对比

与当前最先进的token剪枝和合并技术相比，iLLaVA展现出明显的优越性。现有的方法如FastV主要关注LLM阶段的token剪枝，而iLLaVA的双阶段联合优化策略能够从源头到终端全面压缩视觉信息，实现更深层次的效率提升。

此外，iLLaVA提供的可视化工具允许用户直观地观察token合并过程，深入理解不同LVLM组件如何协同工作以实现高效计算，这为后续研究提供了宝贵的洞察。

## 实际应用与部署

iLLaVA项目提供了完整的部署支持：

### 快速推理

项目提供了`run_inference_once_qwen3vl.py`脚本，支持单张图像、多张图像或视频的推理。用户只需指定模型路径、输入路径和问题即可快速获得结果。

### 离线演示

通过`demo_qwen3vl.py`，用户可以在本地机器上部署交互式演示，支持Gradio界面，默认监听7862端口，也可配置为公开URL。

### 多GPU支持

iLLaVA支持多GPU并行推理，通过`torchrun`启动可充分利用多卡资源加速评估。

### 模型兼容性

当前主分支支持Qwen3-VL，同时提供Qwen2-VL和LLaVA-OneVision的支持分支，满足不同用户的模型偏好。

## 研究意义与未来展望

iLLaVA的研究具有重要的理论和实践意义：

从理论层面，它揭示了视觉编码器在LVLM效率优化中的关键作用，证明了端到端联合优化的必要性。这一发现为未来多模态模型的架构设计提供了新的思路。

从实践层面，iLLaVA为资源受限环境下的LVLM部署提供了可行方案。在移动设备、边缘计算等场景中，2倍的吞吐量提升和4倍的预填充时间减少意味着显著的用户体验改善。

未来，随着多模态模型在更多领域的应用，类似iLLaVA的压缩技术将变得越来越重要。研究团队提供的可视化工具和开源代码也为社区进一步探索token合并机制奠定了基础。

## 总结

iLLaVA通过在视觉编码器和LLM两个阶段递归合并冗余视觉token，实现了大型视觉语言模型的端到端加速。其创新的信息回收机制确保了压缩过程中的性能保持，而丰富的配置选项和完善的部署支持使其成为实际应用的理想选择。对于关注多模态模型效率优化的研究者和工程师而言，iLLaVA无疑是一个值得关注的重要工作。

**项目链接**：https://github.com/hulianyuyy/iLLaVA

**论文链接**：https://arxiv.org/abs/2412.06263