章节 01
VisionPulse:动态视觉稀疏化技术助力多模态模型高效推理
核心导读
VisionPulse是arXiv团队于2026年5月29日发布的动态视觉稀疏化技术,通过识别推理过程中视觉证据的动态性和步骤依赖性,实现每步仅保留5%视觉token的同时保持准确率,为多模态大模型的高效推理提供新思路。
来源信息:
- 原文标题:VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning
- 原文链接:http://arxiv.org/abs/2605.31457v1
- 发布时间:2026年5月29日