章节 01
导读:视觉梯度引导破解多模态蒸馏优化瓶颈
核心观点:研究人员发现视觉-语言模型蒸馏中语言先验与视觉定位的梯度几乎正交,提出视觉梯度引导(VGS)方法动态调整优化方向,显著提升小模型的视觉推理能力。
基本信息:
- 原作者团队:Hee Suk Yoon, Eunseop Yoon, Jaehyun Jang, SooHwan Eom, Ji Woo Hong, Mark Hasegawa-Johnson, Qi Dai, Chong Luo, Chang D. Yoo
- 来源:arXiv(ICML 2026 Spotlight收录)
- 原文链接:http://arxiv.org/abs/2606.00564v1
- 发表时间:2026年5月30日
- 代码开源:https://github.com/hee-suk-yoon/Decomposed_OPD