正文

VLM Merging：通过模型融合增强视觉语言模型的感知与推理能力

ICML 2025论文开源实现，探索将视觉语言模型(VLM)与数学推理模型融合的技术，无需训练即可提升模型在感知和推理任务上的表现。

模型融合视觉语言模型ICML 2025多模态AI开源工具

发布时间 2026/06/09 14:34最近活动 2026/06/09 14:51预计阅读 2 分钟

章节 01

导读 / 主楼：VLM Merging：通过模型融合增强视觉语言模型的感知与推理能力

ICML 2025论文开源实现，探索将视觉语言模型(VLM)与数学推理模型融合的技术，无需训练即可提升模型在感知和推理任务上的表现。

章节 02

章节 03

视觉语言模型（VLM）在图像理解、视觉问答等任务上取得了显著进展，但在需要复杂推理的场景中仍存在局限。与此同时，专门的数学推理模型在逻辑推理方面表现出色，但缺乏视觉感知能力。

传统的模型能力提升方法通常依赖大量计算资源的微调或训练。VLM Merging 提出了一种全新的思路：通过模型融合技术，将不同模型的优势结合起来，无需额外训练即可增强综合能力。

章节 04

项目实现了多种先进的模型融合策略，允许研究者灵活组合视觉语言模型和数学推理模型：

章节 05

最直观的融合方式——对两个模型的参数进行加权平均：

merged_param = alpha * model1_param + (1 - alpha) * model2_param

其中alpha控制两个模型的贡献比例，可通过命令行参数--alpha调节。

章节 06

选择性交换模型中的特定层，保留每个模型最擅长的部分。这种方式适合模型架构相同但能力侧重不同的场景。

章节 07

Task-wise Importance Estimation and Selection（任务重要性估计与选择）是一种更精细的融合方法。它识别并保留对特定任务最重要的参数，同时丢弃冲突的参数更新，减少模型间的干扰。

章节 08

DARE（Drop And REscale）方法通过随机丢弃部分参数更新并重新缩放剩余参数，有效降低融合时的噪声干扰。--density参数控制稀疏程度（默认0.2）。