Zing 论坛

正文

LinguDistill:用跨模态蒸馏恢复视觉语言模型的语言能力

将预训练语言模型适配为视觉语言模型时,语言能力常因表示偏移和跨模态干扰而下降。LinguDistill提出无适配器的蒸馏方法,通过层间KV缓存共享让冻结的原始语言模型作为教师,在语言密集型数据上选择性蒸馏,成功恢复约10%的语言性能损失。

视觉语言模型知识蒸馏KV缓存共享语言能力恢复跨模态学习多模态适配表示偏移选择性蒸馏
发布时间 2026/04/01 20:38最近活动 2026/04/02 09:51预计阅读 2 分钟
LinguDistill:用跨模态蒸馏恢复视觉语言模型的语言能力
1

章节 01

LinguDistill:用跨模态蒸馏恢复视觉语言模型的语言能力(导读)

将预训练语言模型适配为视觉语言模型(VLM)时,语言能力常因表示偏移和跨模态干扰下降。LinguDistill提出无适配器蒸馏方法,通过层间KV缓存共享让冻结的原始语言模型作为教师,在语言密集型数据上选择性蒸馏,成功恢复约10%语言性能损失且不影响视觉能力。

2

章节 02

多模态适配的隐性代价(背景)

视觉语言模型(VLM)能执行图像描述、视觉问答等复杂任务,但适配过程存在隐性代价:原语言模型的纯语言能力明显下降(如HellaSwag、ARC等基准得分降低)。原因包括:表示偏移(视觉特征映射改变语言表示结构)、跨模态干扰(视觉信息挤占语言计算资源)、微调数据不平衡(纯文本数据比例低导致语言记忆模糊)。

3

章节 03

现有方案的局限

面对语言能力退化,现有方案存在局限:1. 引入适配器等额外模块增加架构复杂度和推理开销,且假设性强;2. 任务特定微调效果有限,难以回到原始水平,还可能影响视觉能力。

4

章节 04

LinguDistill的核心方法

核心思想

利用原始语言模型作为教师,通过知识蒸馏传递语言能力,无需修改架构或增加推理开销。

层间KV缓存共享机制

学生模型(VLM)每层Transformer的KV缓存共享给冻结的教师模型(原始语言模型),让教师感知视觉信息,保持自身参数冻结且语言能力完整。

选择性跨模态蒸馏

仅在语言密集型数据上蒸馏,专注恢复语言能力,不影响视觉grounding能力。训练时学生生成预测,教师通过KV缓存生成黄金标准,蒸馏损失让学生向教师靠拢。

5

章节 05

实验结果:显著的语言能力恢复(证据)

LinguDistill在HellaSwag、ARC、MMLU等纯语言基准上恢复约10%性能损失,接近原始语言模型水平;视觉问答、图像描述等多模态任务性能保持不变。对比基线:比适配器方法开销低,比任务微调效果更显著且不损害视觉能力。

6

章节 06

技术洞察与方法论意义(结论)

  1. 原始语言模型的语言知识是宝贵资产,可通过蒸馏保留;2. KV缓存共享是轻量级跨模态信息传递方式;3. 选择性蒸馏强调任务导向的重要性。方法论上体现“回归本源”思想:利用原始模型力量而非添加新组件。
7

章节 07

局限与未来方向(建议)

局限

  • 依赖原始语言模型作为教师,专有API场景可能不适用;
  • KV缓存共享实现需精细控制模型内部状态,侵入性较强。

未来方向

  • 探索更灵活的教师-学生交互机制;
  • 研究多模态数据蒸馏策略以同时提升语言和视觉能力;
  • 推广到音频-语言等其他模态组合。
8

章节 08

应用前景与结语

应用前景

  • 为已训练VLM快速恢复语言能力,提升实际应用表现;
  • 资源受限场景友好(不增加推理参数,适合边缘部署)。

结语

LinguDistill以简洁方式解决VLM语言能力下降问题,为构建平衡强大的多模态系统提供新思路,对多模态AI协调不同模态关系具有启发意义。