Zing 论坛

正文

MiT:不增加视觉token的多模态大模型高效微调新方法

MiT提出了一种全新的多模态信息融合方式,通过将视觉特征直接注入LLM的内部计算层,而非传统的添加视觉token方式,在仅训练2.5%参数的情况下实现了高效的指代图像分割任务。

多模态学习大语言模型参数高效微调CLIPLLaMA指代图像分割视觉语言模型注意力机制
发布时间 2026/06/09 13:40最近活动 2026/06/09 13:50预计阅读 3 分钟
MiT:不增加视觉token的多模态大模型高效微调新方法
1

章节 01

MiT:不增加视觉token的多模态高效微调新方法导读

标题:MiT:不增加视觉token的多模态大模型高效微调新方法 核心观点:MiT提出全新多模态信息融合方式,将视觉特征直接注入LLM内部计算层,替代传统添加视觉token的方式,仅训练2.5%参数即可实现高效的指代图像分割任务。 优势:避免序列长度膨胀(无二次方计算开销)、保持LLM与视觉编码器冻结、参数高效。 来源:GitHub项目(作者kiva12138,发布时间2026-06-09,链接:https://github.com/kiva12138/MiT)

2

章节 02

多模态大模型的效率困境

随着LLM能力提升,多模态扩展成为热点。传统方法将视觉编码器输出作为额外token拼接文本序列,但存在效率问题:视觉token数量增加导致自注意力计算复杂度二次增长,高分辨率图像或多帧视频时计算与内存成本剧增;全量微调大规模模型资源需求大,多数研究者难以实现。因此,如何在冻结LLM前提下高效注入多模态信息是关键问题。

3

章节 03

MiT核心思想:信息注入而非token拼接

MiT(Multimodal Infusion Tuning)的核心思路是直接将视觉特征注入LLM内部计算层,而非转换为token拼接。其优势包括:

  1. 避免序列长度膨胀,无自注意力二次方开销;
  2. 基础LLM(如LLaMA)和视觉编码器(如CLIP)完全冻结,仅训练轻量级注入模块;
  3. 参数高效,仅需训练约2.5%参数。 该方法在指代图像分割任务(根据文本描述分割图像目标)上验证有效性。
4

章节 04

技术细节:三层注入机制

MiT设计三层注入机制,将CLIP全局图像特征线性注入LLaMA选定层:

  1. 键值(K/V)注入:通过乘性与加性变换将图像特征映射到文本空间,与文本Key/Value元素级融合,柔和调制文本表示;
  2. 自适应头级重缩放:引入可学习头级向量,结合文本Value与图像特征的余弦相似度,通过sigmoid门控自适应调整视觉信息注入;
  3. 前馈网络(FFN)注入:通过门控机制调制隐藏状态,影响模型非线性变换过程。
5

章节 05

架构设计与实现细节

架构设计

  • 冻结基础模型:LLaMA-2-7B和CLIP-ViT-Large完全冻结,保留预训练知识;
  • 轻量级模块:仅包含少量线性变换和头级参数;
  • 最后token池化:取LLM最后一个token隐藏状态作为注入后文本表示;
  • 轻量分割解码器:结合多层级CLIP特征图生成分割掩码。

实现细节: 代码结构模块化,包括Model.py(核心模型)、DecoderTF.py(默认分割解码器)、ReferDataset.py(数据集加载)等;针对transformers 4.35.x优化,重写LLaMA注意力逻辑支持注入机制。

6

章节 06

实验验证与数据集支持

MiT在多个指代图像分割数据集验证:

  • RefCOCO(19994张图像,142210个指代表达);
  • RefCOCO+(19992张图像,141564个指代表达);
  • RefCOCOg(25799张图像,95010个指代表达);
  • RefCLEF(基于SAIAPR TC-12图像集)。 项目提供一键下载脚本和数据验证工具,降低复现门槛。
7

章节 07

技术启示与未来展望

技术启示

  1. 内部注入优于外部拼接,更高效灵活;
  2. 冻结基础模型可行,通过适配器赋予新能力;
  3. 不同任务需不同注入策略,框架扩展性好。

未来展望: 扩展到音频、视频等更多模态,应用于视觉问答、图像描述生成等任务;优化注入模块结构、减少参数、提升可解释性。