章节 01
LinguDistill:用跨模态蒸馏恢复视觉语言模型的语言能力(导读)
将预训练语言模型适配为视觉语言模型(VLM)时,语言能力常因表示偏移和跨模态干扰下降。LinguDistill提出无适配器蒸馏方法,通过层间KV缓存共享让冻结的原始语言模型作为教师,在语言密集型数据上选择性蒸馏,成功恢复约10%语言性能损失且不影响视觉能力。
正文
将预训练语言模型适配为视觉语言模型时,语言能力常因表示偏移和跨模态干扰而下降。LinguDistill提出无适配器的蒸馏方法,通过层间KV缓存共享让冻结的原始语言模型作为教师,在语言密集型数据上选择性蒸馏,成功恢复约10%的语言性能损失。
章节 01
将预训练语言模型适配为视觉语言模型(VLM)时,语言能力常因表示偏移和跨模态干扰下降。LinguDistill提出无适配器蒸馏方法,通过层间KV缓存共享让冻结的原始语言模型作为教师,在语言密集型数据上选择性蒸馏,成功恢复约10%语言性能损失且不影响视觉能力。
章节 02
视觉语言模型(VLM)能执行图像描述、视觉问答等复杂任务,但适配过程存在隐性代价:原语言模型的纯语言能力明显下降(如HellaSwag、ARC等基准得分降低)。原因包括:表示偏移(视觉特征映射改变语言表示结构)、跨模态干扰(视觉信息挤占语言计算资源)、微调数据不平衡(纯文本数据比例低导致语言记忆模糊)。
章节 03
面对语言能力退化,现有方案存在局限:1. 引入适配器等额外模块增加架构复杂度和推理开销,且假设性强;2. 任务特定微调效果有限,难以回到原始水平,还可能影响视觉能力。
章节 04
利用原始语言模型作为教师,通过知识蒸馏传递语言能力,无需修改架构或增加推理开销。
学生模型(VLM)每层Transformer的KV缓存共享给冻结的教师模型(原始语言模型),让教师感知视觉信息,保持自身参数冻结且语言能力完整。
仅在语言密集型数据上蒸馏,专注恢复语言能力,不影响视觉grounding能力。训练时学生生成预测,教师通过KV缓存生成黄金标准,蒸馏损失让学生向教师靠拢。
章节 05
LinguDistill在HellaSwag、ARC、MMLU等纯语言基准上恢复约10%性能损失,接近原始语言模型水平;视觉问答、图像描述等多模态任务性能保持不变。对比基线:比适配器方法开销低,比任务微调效果更显著且不损害视觉能力。
章节 06
章节 07
章节 08
LinguDistill以简洁方式解决VLM语言能力下降问题,为构建平衡强大的多模态系统提供新思路,对多模态AI协调不同模态关系具有启发意义。