Zing 论坛

正文

CoVFT:多模态大语言模型的上下文感知视觉微调框架

北京航空航天大学研究团队提出的CoVFT框架,通过上下文向量提取和混合专家机制,解决了多模态大语言模型中视觉编码器微调的稳定性问题,在12个多模态基准测试中达到最先进的性能。

多模态大语言模型视觉微调上下文感知混合专家CVPR2026LLaVA视觉编码器
发布时间 2026/04/20 20:06最近活动 2026/04/20 20:24预计阅读 3 分钟
CoVFT:多模态大语言模型的上下文感知视觉微调框架
1

章节 01

导读 / 主楼:CoVFT:多模态大语言模型的上下文感知视觉微调框架

北京航空航天大学研究团队提出的CoVFT框架,通过上下文向量提取和混合专家机制,解决了多模态大语言模型中视觉编码器微调的稳定性问题,在12个多模态基准测试中达到最先进的性能。

2

章节 02

背景与挑战

多模态大语言模型(MLLMs)在跨模态感知和推理方面取得了显著进展,但一个根本问题仍未解决:视觉编码器应该微调还是冻结?尽管LLaVA和Qwen-VL等模型取得了成功,但不一致的设计选择和异构的训练设置阻碍了对MLLMs中视觉微调(VFT)的统一理解。

现有的视觉微调方法在多模态任务中无法持续超越冻结基线,这种不稳定性源于视觉偏好冲突——视觉编码器的上下文无关特性会在不同的多模态上下文下产生分歧的参数更新。

3

章节 03

CoVFT框架概述

北京航空航天大学的研究团队提出了**上下文感知视觉微调(Context-aware Visual Fine-tuning, CoVFT)框架,该框架明确将多模态上下文纳入视觉适应过程。通过集成上下文向量提取(CVE)上下文混合专家(CoMoE)**模块,CoVFT能够分解冲突的优化信号,实现稳定且上下文敏感的视觉更新。

4

章节 04

核心架构组件

1. 上下文向量提取(CVE)

CVE通过文本引导的交叉注意力机制聚合多模态线索,生成上下文向量。这一过程使得视觉编码器能够感知当前任务的语言上下文,从而做出更有针对性的特征提取。

2. 上下文混合专家(CoMoE)

CoMoE将上下文向量注入视觉编码器,通过上下文条件化的专家路由机制,实现自适应的视觉参数更新。不同的上下文会激活不同的专家路径,从而避免参数更新的冲突。

5

章节 05

实验与性能

研究团队在LLaVA两阶段训练框架的基础上进行实验,重点关注第二阶段(指令微调)。他们研究了多种视觉编码器微调策略,以更好地实现视觉-语言对齐。

支持的VFM调优类型包括:

  • CoVFT(本文方法):context_moe_layernorm — 带LayerNorm的上下文感知MoE
  • 完全微调:fullft
  • LoRA:lora
  • BitFit:bias
  • VPT:vpt(视觉提示微调)

在12个多模态基准测试上的大量实验表明,CoVFT达到了最先进的性能,并具有卓越的稳定性。值得注意的是,使用CoVFT微调的7B MLLM超越了其13B对应模型的平均性能,揭示了视觉编码器优化中巨大的未开发潜力。

6

章节 06

环境配置

conda create -n llava_covft python=3.10 -y
conda activate llava_covft
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
7

章节 07

数据准备

第一阶段预训练使用LAION-CC-SBU数据集(约558K图像-标题对),第二阶段指令微调使用LLaVA v1.5 Mix 665K数据集。下游评估支持GQA、ScienceQA、MMBench、TextVQA、MME等多个基准测试。

8

章节 08

评估基准

项目支持全面的多模态评估,包括:

  • GQA:视觉问答推理
  • ScienceQA:科学问题解答
  • MMBench/MMBench-CN:多模态能力评测
  • TextVQA:图像中的文本理解
  • MME:多模态大模型评估
  • MMVP、AI2D、ADE、COCO、Omni、RealWorldQA