章节 01
【导读】ProjLens揭示多模态大模型投影层后门攻击核心机制
ProjLens是针对多模态大语言模型(MLLMs)的可解释性框架,旨在揭示其投影层中的后门攻击机制。研究核心发现包括:即使仅对投影层进行正常下游任务微调,也会引入后门注入漏洞;后门参数编码在投影层的低秩子空间内,无专门触发神经元;激活机制依赖语义偏移幅度与输入范数的线性关系,投毒样本因范数大触发后门。这些发现为MLLM安全防御提供了关键依据。
正文
多模态大语言模型(MLLMs)在跨模态理解和生成方面取得了显著成功,但其部署面临着严重的安全漏洞威胁。ProjLens是一个可解释性框架,旨在揭示MLLMs中的后门攻击机制。研究发现,即使是仅对投影层进行微调的正常下游任务对齐,也会引入后门注入漏洞,且其激活机制与纯文本LLM中观察到的不同。
章节 01
ProjLens是针对多模态大语言模型(MLLMs)的可解释性框架,旨在揭示其投影层中的后门攻击机制。研究核心发现包括:即使仅对投影层进行正常下游任务微调,也会引入后门注入漏洞;后门参数编码在投影层的低秩子空间内,无专门触发神经元;激活机制依赖语义偏移幅度与输入范数的线性关系,投毒样本因范数大触发后门。这些发现为MLLM安全防御提供了关键依据。
章节 02
后门攻击通过在训练数据植入触发模式,使模型遇触发器时产生恶意输出,常规测试难以发现。纯文本LLM的后门机制已有研究,但MLLMs因视觉-语言投影层的存在,后门表现形式可能不同。投影层在后门攻击中的角色是ProjLens研究的核心问题。
章节 03
ProjLens框架通过系统性实验与分析,首次揭示投影层在MLLMs后门攻击中的关键作用。重要发现:正常下游任务对齐(仅微调投影层)也会为后门注入创造漏洞条件,提示看似良性的微调场景也存在安全风险。
章节 04
与文本LLM中存在专门触发神经元不同,MLLMs后门权重更新整体呈满秩特征,但关键参数编码在投影层的低秩子空间内。这种分布式嵌入方式使后门更隐蔽,传统基于神经元激活的检测方法难以奏效。
章节 05
干净与投毒样本的嵌入向量均会朝后门目标方向发生语义偏移,但偏移幅度与输入范数线性相关。投毒样本因触发器存在导致输入范数较大,偏移幅度足以激活后门;干净样本范数小,偏移幅度不足触发后门。
章节 06
研究团队设计四种不同后门攻击变体(涵盖不同触发模式与目标)进行实验,结果表明低秩结构与激活机制在所有变体中均成立,说明这些机制是MLLMs投影层架构的固有特性。
章节 07
章节 08
ProjLens首次深入揭示投影层在MLLMs后门攻击中的关键作用,增进了对MLLM安全漏洞的理解,为开发有效防御机制奠定理论基础。随着多模态AI普及,此类基础安全研究的重要性将愈发凸显。