正文

DiM³：无需重新训练，通过方向与幅度感知合并赋予多模态模型多语言能力

DiM³提出一种免训练方法，通过选择性合并多语言和多模态参数更新，在57种语言上实现多模态模型多语言能力的注入，性能媲美专用多语言多模态微调。

多模态模型多语言模型参数合并模型融合免训练方法跨语言对齐LLaVAQwen

发布时间 2026/05/13 11:50最近活动 2026/05/14 10:48预计阅读 1 分钟

章节 01

DiM³：无需重新训练，赋予多模态模型多语言能力的创新方法

DiM³提出一种免训练方法，通过方向与幅度感知的参数合并，在57种语言上实现多模态模型多语言能力的注入，性能媲美专用多语言多模态微调，解决了传统整合多语言与多模态能力的高成本问题。

章节 02

当前多模态大模型（如LLaVA、Qwen-VL）视觉理解出色但主要面向英语用户。传统赋予多语言能力需构建大规模多语言多模态数据集、端到端重训练，成本高昂；且多语言与多模态更新在共享语言骨干中功能冲突，简单合并易导致性能下降。

章节 03

DiM³将问题定义为参数空间的选择性合并，分析多语言和多模态更新的几何特性：方向感知识别互补/冲突维度，一致则增强、冲突则权衡；幅度感知评估参数敏感度，平衡能力重要性，实现57种语言覆盖与多模态能力的平衡。

章节 04

DiM³保持原始多模态模型的视觉编码器和多模态投影器不变，仅合并语言模型骨干参数。该策略避免破坏已学习的视觉-语言对齐，简化合并过程且提升方法的通用性与可迁移性。

章节 05

在LLaVA和Qwen架构上验证，覆盖57种语言：文本任务显著超越原始模型；视觉-语言任务展现跨语言能力；性能与专门微调模型相当，且保持原多模态能力。

章节 06

可解释性分析显示：DiM³主要影响语言模型中间层（重塑语义表征），顶层保持任务结构（保留多模态能力），实现跨语言-多模态统一表征。实际应用可快速赋能现有模型扩展语言能力，代码已开源。

章节 07

局限：低资源语言效果受限。未来方向：探索低资源语言混合方法、扩展到音频/视频等更多模态、研究动态合并策略。