Zing 论坛

正文

OptMerge:通过模型合并统一多模态大语言模型能力与模态的研究

ICLR 2026 接收的 OptMerge 项目提出了一种创新的多模态大语言模型合并方法,能够在不重新训练的情况下整合不同模态的能力,实现视觉、音频、视频等多种模态的统一处理。

多模态大语言模型模型合并Model MergingTIES-Merging视觉语言模型音频理解视频理解ICLR 2026参数融合多模态学习
发布时间 2026/05/08 16:12最近活动 2026/05/08 16:19预计阅读 1 分钟
OptMerge:通过模型合并统一多模态大语言模型能力与模态的研究
1

章节 01

OptMerge项目导读(ICLR2026接收)

OptMerge是ICLR 2026接收的研究项目,提出创新的多模态大语言模型合并方法,无需重新训练即可整合视觉、音频、视频等多种模态能力,解决不同模态模型独立训练导致的成本高昂、丢失专精能力的核心挑战。

2

章节 02

研究背景与动机

多模态大语言模型(MLLMs)发展迅速,但不同模态模型通常独立训练,拥有各自参数和架构。传统统一模型训练成本高且丢失各模态专精能力。OptMerge探索模型合并技术路径,通过参数融合整合多个单/多模态专家模型能力,无需从头联合训练。

3

章节 03

核心技术创新

模型合并技术原理

  1. 任务向量方法:计算微调模型与预训练权重的差值(任务向量),加权平均后加回预训练权重。
  2. TIES-Merging策略:包含修剪(过滤小更新减少噪声)、符号选举(选择参数更新主导方向)、不相交合并(仅合并符号一致的更新)三个步骤。
  3. 多模态能力整合:支持将视觉(CLIP)
4

章节 04

导读 / 主楼:OptMerge:通过模型合并统一多模态大语言模型能力与模态的研究

ICLR 2026 接收的 OptMerge 项目提出了一种创新的多模态大语言模型合并方法,能够在不重新训练的情况下整合不同模态的能力,实现视觉、音频、视频等多种模态的统一处理。