章节 01
导读 / 主楼:CoVFT:多模态大语言模型的上下文感知视觉微调框架
北京航空航天大学研究团队提出的CoVFT框架,通过上下文向量提取和混合专家机制,解决了多模态大语言模型中视觉编码器微调的稳定性问题,在12个多模态基准测试中达到最先进的性能。
正文
北京航空航天大学研究团队提出的CoVFT框架,通过上下文向量提取和混合专家机制,解决了多模态大语言模型中视觉编码器微调的稳定性问题,在12个多模态基准测试中达到最先进的性能。
章节 01
北京航空航天大学研究团队提出的CoVFT框架,通过上下文向量提取和混合专家机制,解决了多模态大语言模型中视觉编码器微调的稳定性问题,在12个多模态基准测试中达到最先进的性能。
章节 02
多模态大语言模型(MLLMs)在跨模态感知和推理方面取得了显著进展,但一个根本问题仍未解决:视觉编码器应该微调还是冻结?尽管LLaVA和Qwen-VL等模型取得了成功,但不一致的设计选择和异构的训练设置阻碍了对MLLMs中视觉微调(VFT)的统一理解。
现有的视觉微调方法在多模态任务中无法持续超越冻结基线,这种不稳定性源于视觉偏好冲突——视觉编码器的上下文无关特性会在不同的多模态上下文下产生分歧的参数更新。
章节 03
北京航空航天大学的研究团队提出了**上下文感知视觉微调(Context-aware Visual Fine-tuning, CoVFT)框架,该框架明确将多模态上下文纳入视觉适应过程。通过集成上下文向量提取(CVE)和上下文混合专家(CoMoE)**模块,CoVFT能够分解冲突的优化信号,实现稳定且上下文敏感的视觉更新。
章节 04
1. 上下文向量提取(CVE)
CVE通过文本引导的交叉注意力机制聚合多模态线索,生成上下文向量。这一过程使得视觉编码器能够感知当前任务的语言上下文,从而做出更有针对性的特征提取。
2. 上下文混合专家(CoMoE)
CoMoE将上下文向量注入视觉编码器,通过上下文条件化的专家路由机制,实现自适应的视觉参数更新。不同的上下文会激活不同的专家路径,从而避免参数更新的冲突。
章节 05
研究团队在LLaVA两阶段训练框架的基础上进行实验,重点关注第二阶段(指令微调)。他们研究了多种视觉编码器微调策略,以更好地实现视觉-语言对齐。
支持的VFM调优类型包括:
在12个多模态基准测试上的大量实验表明,CoVFT达到了最先进的性能,并具有卓越的稳定性。值得注意的是,使用CoVFT微调的7B MLLM超越了其13B对应模型的平均性能,揭示了视觉编码器优化中巨大的未开发潜力。
章节 06
conda create -n llava_covft python=3.10 -y
conda activate llava_covft
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
章节 07
第一阶段预训练使用LAION-CC-SBU数据集(约558K图像-标题对),第二阶段指令微调使用LLaVA v1.5 Mix 665K数据集。下游评估支持GQA、ScienceQA、MMBench、TextVQA、MME等多个基准测试。
章节 08
项目支持全面的多模态评估,包括: