Zing 论坛

正文

DiM³:无需重新训练,通过方向与幅度感知合并赋予多模态模型多语言能力

DiM³提出一种免训练方法,通过选择性合并多语言和多模态参数更新,在57种语言上实现多模态模型多语言能力的注入,性能媲美专用多语言多模态微调。

多模态模型多语言模型参数合并模型融合免训练方法跨语言对齐LLaVAQwen
发布时间 2026/05/13 11:50最近活动 2026/05/14 10:48预计阅读 1 分钟
DiM³:无需重新训练,通过方向与幅度感知合并赋予多模态模型多语言能力
1

章节 01

DiM³:无需重新训练,赋予多模态模型多语言能力的创新方法

DiM³提出一种免训练方法,通过方向与幅度感知的参数合并,在57种语言上实现多模态模型多语言能力的注入,性能媲美专用多语言多模态微调,解决了传统整合多语言与多模态能力的高成本问题。

2

章节 02

多语言多模态模型整合的传统挑战

当前多模态大模型(如LLaVA、Qwen-VL)视觉理解出色但主要面向英语用户。传统赋予多语言能力需构建大规模多语言多模态数据集、端到端重训练,成本高昂;且多语言与多模态更新在共享语言骨干中功能冲突,简单合并易导致性能下降。

3

章节 03

DiM³的核心:方向与幅度感知的选择性参数合并

DiM³将问题定义为参数空间的选择性合并,分析多语言和多模态更新的几何特性:方向感知识别互补/冲突维度,一致则增强、冲突则权衡;幅度感知评估参数敏感度,平衡能力重要性,实现57种语言覆盖与多模态能力的平衡。

4

章节 04

DiM³的技术实现:冻结视觉组件,仅合并语言骨干

DiM³保持原始多模态模型的视觉编码器和多模态投影器不变,仅合并语言模型骨干参数。该策略避免破坏已学习的视觉-语言对齐,简化合并过程且提升方法的通用性与可迁移性。

5

章节 05

DiM³的实验验证:性能媲美专用微调

在LLaVA和Qwen架构上验证,覆盖57种语言:文本任务显著超越原始模型;视觉-语言任务展现跨语言能力;性能与专门微调模型相当,且保持原多模态能力。

6

章节 06

DiM³的可解释性与实际应用价值

可解释性分析显示:DiM³主要影响语言模型中间层(重塑语义表征),顶层保持任务结构(保留多模态能力),实现跨语言-多模态统一表征。实际应用可快速赋能现有模型扩展语言能力,代码已开源。

7

章节 07

DiM³的局限与未来方向

局限:低资源语言效果受限。未来方向:探索低资源语言混合方法、扩展到音频/视频等更多模态、研究动态合并策略。