Zing 论坛

正文

VLM Merging:通过模型融合增强视觉语言模型的感知与推理能力

ICML 2025论文开源实现,探索将视觉语言模型(VLM)与数学推理模型融合的技术,无需训练即可提升模型在感知和推理任务上的表现。

模型融合视觉语言模型ICML 2025多模态AI开源工具
发布时间 2026/06/09 14:34最近活动 2026/06/09 14:51预计阅读 2 分钟
VLM Merging:通过模型融合增强视觉语言模型的感知与推理能力
1

章节 01

导读 / 主楼:VLM Merging:通过模型融合增强视觉语言模型的感知与推理能力

ICML 2025论文开源实现,探索将视觉语言模型(VLM)与数学推理模型融合的技术,无需训练即可提升模型在感知和推理任务上的表现。

3

章节 03

研究背景与动机

视觉语言模型(VLM)在图像理解、视觉问答等任务上取得了显著进展,但在需要复杂推理的场景中仍存在局限。与此同时,专门的数学推理模型在逻辑推理方面表现出色,但缺乏视觉感知能力。

传统的模型能力提升方法通常依赖大量计算资源的微调或训练。VLM Merging 提出了一种全新的思路:通过模型融合技术,将不同模型的优势结合起来,无需额外训练即可增强综合能力


4

章节 04

核心方法:模型融合技术

项目实现了多种先进的模型融合策略,允许研究者灵活组合视觉语言模型和数学推理模型:

5

章节 05

基础融合(Base Merging)

最直观的融合方式——对两个模型的参数进行加权平均:

merged_param = alpha * model1_param + (1 - alpha) * model2_param

其中alpha控制两个模型的贡献比例,可通过命令行参数--alpha调节。

6

章节 06

层交换(Layer Swapping)

选择性交换模型中的特定层,保留每个模型最擅长的部分。这种方式适合模型架构相同但能力侧重不同的场景。

7

章节 07

TIES 融合

Task-wise Importance Estimation and Selection(任务重要性估计与选择)是一种更精细的融合方法。它识别并保留对特定任务最重要的参数,同时丢弃冲突的参数更新,减少模型间的干扰。

8

章节 08

DARE 系列融合

  • DARE-TIES:结合稀疏任务向量和TIES选择机制
  • DARE-Linear:使用线性稀疏策略的DARE变体

DARE(Drop And REscale)方法通过随机丢弃部分参数更新并重新缩放剩余参数,有效降低融合时的噪声干扰。--density参数控制稀疏程度(默认0.2)。