章节 01
导读 / 主楼:VLM Merging:通过模型融合增强视觉语言模型的感知与推理能力
ICML 2025论文开源实现,探索将视觉语言模型(VLM)与数学推理模型融合的技术,无需训练即可提升模型在感知和推理任务上的表现。
正文
ICML 2025论文开源实现,探索将视觉语言模型(VLM)与数学推理模型融合的技术,无需训练即可提升模型在感知和推理任务上的表现。
章节 01
ICML 2025论文开源实现,探索将视觉语言模型(VLM)与数学推理模型融合的技术,无需训练即可提升模型在感知和推理任务上的表现。
章节 02
章节 03
视觉语言模型(VLM)在图像理解、视觉问答等任务上取得了显著进展,但在需要复杂推理的场景中仍存在局限。与此同时,专门的数学推理模型在逻辑推理方面表现出色,但缺乏视觉感知能力。
传统的模型能力提升方法通常依赖大量计算资源的微调或训练。VLM Merging 提出了一种全新的思路:通过模型融合技术,将不同模型的优势结合起来,无需额外训练即可增强综合能力。
章节 04
项目实现了多种先进的模型融合策略,允许研究者灵活组合视觉语言模型和数学推理模型:
章节 05
最直观的融合方式——对两个模型的参数进行加权平均:
merged_param = alpha * model1_param + (1 - alpha) * model2_param
其中alpha控制两个模型的贡献比例,可通过命令行参数--alpha调节。
章节 06
选择性交换模型中的特定层,保留每个模型最擅长的部分。这种方式适合模型架构相同但能力侧重不同的场景。
章节 07
Task-wise Importance Estimation and Selection(任务重要性估计与选择)是一种更精细的融合方法。它识别并保留对特定任务最重要的参数,同时丢弃冲突的参数更新,减少模型间的干扰。
章节 08
DARE(Drop And REscale)方法通过随机丢弃部分参数更新并重新缩放剩余参数,有效降低融合时的噪声干扰。--density参数控制稀疏程度(默认0.2)。