正文

RESTORE: 纠正多模态大模型视觉Token压缩中的位置与注意力失真

本文介绍RESTORE框架，通过校准注意力权重和优化锚点选择策略，解决视觉Token压缩过程中的位置与注意力一致性问题，在保持计算效率的同时提升多模态大模型的推理精度。

多模态大模型视觉Token压缩注意力校准RESTOREMLLM推理优化Token合并

发布时间 2026/06/01 13:25最近活动 2026/06/02 10:53预计阅读 2 分钟

章节 01

导读：RESTORE框架解决视觉Token压缩失真问题

本文介绍RESTORE框架，针对多模态大模型视觉Token压缩过程中的位置与注意力一致性问题，通过校准注意力权重和优化锚点选择策略，在保持计算效率的同时提升推理精度。该框架可兼容现有压缩方法，零额外训练成本，是实用的推理优化方案。

章节 02

多模态大模型面临视觉Token数量爆炸的瓶颈，Transformer注意力机制的二次复杂度导致计算、内存和延迟问题。现有视觉Token压缩方法（合并、剪枝、金字塔池化）虽降低成本，但存在位置失真（空间位置编码不准确）和注意力失真（关注模式扭曲丢失）的盲区。

章节 03

RESTORE框架包含两个核心组件：

章节 04

实验结果显示：

章节 05

通过可视化和量化分析揭示有效性：

章节 06

部署建议：

章节 07

启示：压缩-恢复联合优化重要性、注意力模式可迁移性、显式位置建模的必要性。局限：静态压缩策略、缺乏端到端训练、跨模态交互研究不足。未来方向：可学习校准网络、内容感知动态压缩、跨模态对齐补偿方法。