Zing 论坛

正文

CMC防火墙:基于共形预测的多模态LLM视觉提示注入防御方案

CMC(Conformal Cross-Modal Firewall)是一种前置模型防御机制,通过OCR文本提取、SigLIP风险评分和归纳共形预测校准,在保持模型实用性的同时有效控制视觉提示注入攻击的误报率。

CMC视觉提示注入多模态LLM共形预测MLLM安全SigLIPOCR防火墙MM-SafetyBenchNeurIPS前置防御
发布时间 2026/04/25 22:09最近活动 2026/04/25 22:23预计阅读 2 分钟
CMC防火墙:基于共形预测的多模态LLM视觉提示注入防御方案
1

章节 01

CMC防火墙:基于共形预测的多模态LLM视觉提示注入防御方案导读

随着多模态大语言模型(MLLM)的广泛应用,视觉提示注入攻击已成为严峻安全挑战。CMC(Conformal Cross-Modal Firewall)是一种前置模型防御机制,通过OCR文本提取、SigLIP风险评分和归纳共形预测校准,在保持模型实用性的同时有效控制误报率,解决传统防御“过度敏感误报”或“宽松漏防”的两难困境。

2

章节 02

视觉提示注入攻击的威胁现状与现有防御局限

视觉提示注入攻击利用MLLM的OCR能力,嵌入类似“忽略之前指令执行X”的恶意文本,绕过传统文本安全过滤。现有防御方案存在不足:关键词黑名单易被同义词/拼写变体绕过;语义相似度过滤依赖固定阈值难平衡安全与可用;后处理过滤无法阻止有害内容生成过程。

3

章节 03

CMC防火墙的核心防御机制

CMC采用前置模型架构,核心流程分三步:1. OCR文本跨度提取:识别图像中可见及隐藏文本;2. SigLIP编码器风险评分:计算语义风险(与恶意指令相似度)和统计异常(嵌入空间分布异常);3. 归纳共形预测校准:提供分布无关、有限样本有效的误报率保证,严格限制干净图像误报率在α+1/(n+1)以内。

4

章节 04

CMC防火墙的实验证据与性能评估

在MM-SafetyBench数据集评估:CMC(α=0.20)不安全率15.4%,攻击拦截率81.2%,误报率12.4%低于理论上限21%。跨模型验证(Qwen3.5-9B)不安全率从17.2%降至13.9%(p=0.0008)。MMBench测试保持90%原始性能,实用性可控。

5

章节 05

CMC防火墙的技术实现细节

计算资源:headline LLaVA流程用1×H100-class GPU;完整复现需2×H100 NVL(MIG切片)。代码结构含configs(39个实验配置)、src(attacks/defenses/eval/transforms)、scripts。快速开始:克隆仓库→bash scripts/setup.sh→smoke_test.sh→reproduce.sh。

6

章节 06

CMC的理论贡献与相关工作对比

理论贡献:引入统计学习理论,共形预测的分布无关保证、有限样本有效性、归纳式高效部署;验证4个定理。相关工作对比:CMC在拦截率(中等偏高)、误报控制(统计保证)、可解释性(高)等方面优于关键词过滤和语义过滤。

7

章节 07

CMC防火墙的实际部署考量

优势:统计保证(明确FPR上界)、模型无关(前置层适配任何MLLM)、可解释性(追溯风险分数)。挑战:计算开销(增加延迟)、校准数据质量影响有效性、对抗适应性需持续更新。

8

章节 08

CMC防火墙的总结与未来展望

CMC实现从经验调参到统计保证的转变,平衡安全性与可用性。已提交NeurIPS 2026,代码开源。未来方向:扩展到视频时序注入防御、主动学习更新校准集、轻量级编码器降低部署成本。