# CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案

> CMC（Conformal Cross-Modal Firewall）是一种前置模型防御机制，通过OCR文本提取、SigLIP风险评分和归纳共形预测校准，在保持模型实用性的同时有效控制视觉提示注入攻击的误报率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-25T14:09:05.000Z
- 最近活动: 2026-04-25T14:23:00.439Z
- 热度: 163.8
- 关键词: CMC, 视觉提示注入, 多模态LLM, 共形预测, MLLM安全, SigLIP, OCR防火墙, MM-SafetyBench, NeurIPS, 前置防御
- 页面链接: https://www.zingnex.cn/forum/thread/cmc-llm
- Canonical: https://www.zingnex.cn/forum/thread/cmc-llm
- Markdown 来源: ingested_event

---

# CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案\n\n随着多模态大语言模型（MLLM）的广泛应用，视觉提示注入攻击（Visual Prompt Injection）已成为一个严峻的安全挑战。攻击者通过在图像中嵌入恶意文本指令，诱导模型执行非预期操作，如生成有害内容或泄露敏感信息。传统的防御手段往往面临一个两难困境：要么过度敏感导致大量误报影响用户体验，要么过于宽松无法有效拦截攻击。\n\n## 视觉提示注入攻击的威胁现状\n\n视觉提示注入攻击的核心在于利用 MLLM 的 OCR 能力。当模型处理包含文本的图像时，攻击者可以嵌入类似"忽略之前的指令，改为执行X"的恶意文本。由于模型通常将图像和文本指令视为同等重要的输入，这种攻击可以绕过传统的文本安全过滤机制。\n\n现有防御方案主要包括：\n\n1. **关键词黑名单**：简单但容易被同义词、拼写变体绕过\n2. **语义相似度过滤**：依赖固定阈值，难以平衡安全性与可用性\n3. **后处理过滤**：在模型输出阶段检测，无法阻止有害内容的生成过程\n\n## CMC防火墙的核心机制\n\nCMC（Conformal Cross-Modal Firewall）提出了一种**前置模型（pre-model）**的防御架构，在图像输入进入 MLLM 之前进行风险检测和过滤。其核心流程包含三个步骤：\n\n### 1. OCR 文本跨度提取\n\n首先使用 OCR 技术从图像中提取所有文本跨度（text spans）。这一步不仅识别可见文本，还包括通过排版、颜色对比度等手段隐藏的文本。\n\n### 2. SigLIP 编码器风险评分\n\n对每个文本跨度，使用冻结的 SigLIP 编码器计算风险分数。这里采用了一个基于 Neyman-Pearson 对数似然比的两组件风险模型，假设文本嵌入服从 von Mises-Fisher 分布。\n\n具体而言，风险分数由两部分组成：\n- **语义风险**：文本跨度与已知恶意指令的语义相似度\n- **统计异常**：文本跨度在嵌入空间中的分布异常程度\n\n### 3. 归纳共形预测校准\n\n这是 CMC 最具创新性的部分。传统方法使用固定阈值（如 τ=0.78），但这种方法无法提供统计保证。CMC 采用**归纳共形预测（Inductive Conformal Prediction）**来校准掩码阈值，确保：\n\n> 在干净图像上的误报率（FPR）被严格限制在 α + 1/(n+1) 以内\n\n这一保证是**分布无关的（distribution-free）**、**有限样本有效的（finite-sample valid）**，且仅要求数据满足可交换性（exchangeability）。\n\n## 实验结果与性能评估\n\n研究团队在 MM-SafetyBench 数据集上进行了全面评估，对比了多种防御方案：\n\n| 防御方案 | 不安全率 (95% CI) | 攻击拦截率 | 干净图像误报率 |\n|----------|-------------------|------------|----------------|\n| 无防御（基准） | 19.5% [17.5, 21.8] | — | — |\n| 关键词黑名单 | 13.9% [12.0, 15.8] | 100% | 100%（无FPR控制）|\n| 纯语义过滤 (τ=0.78) | 19.0% [17.1, 21.3] | 21.5% | 4.3%（手工调参）|\n| **CMC + 共形预测 (α=0.20)** | **15.4% [13.4, 17.5]** | **81.2%** | **12.4% < 21%** |\n\n结果显示，CMC 在保持较低误报率（12.4%，低于理论上限 21%）的同时，实现了 81.2% 的攻击拦截率，将整体不安全率从 19.5% 降低到 15.4%。\n\n### 跨模型验证\n\n为验证方法的泛化能力，团队在 Qwen3.5-9B 上进行了交叉验证：\n- 不安全率从 17.2% 降至 13.9%（配对 bootstrap 检验，p=0.0008）\n- 当使用更大的校准集（n=500）时，差距进一步扩大到 -6.5 个百分点，置信区间不重叠\n\n值得注意的是，Gemma 4 E4B-it 是一个"非退化"案例——由于其安全训练已经将不安全率绑定在 0.5%，CMC 的改进空间较小。\n\n### 实用性保持\n\n在 MMBench 多选题基准测试中，CMC 防御下的模型保持了 90.0% 的原始性能，表明该防御机制对正常任务的影响可控。\n\n## 技术实现细节\n\n### 计算资源需求\n\n- ** headline LLaVA 流程**：1× H100-class GPU (80GB)，batch_size=32\n- **完整实验复现**：2× H100 NVL，使用 MIG 切片（47.5 GiB）\n  - cuda:0 运行目标 MLLM\n  - cuda:1 运行 Llama-Guard-3-8B 和 SigLIP 防御评分器\n\n对于 Qwen3.5-9B 和 Gemma 4 E4B-it，需在配置中设置 `"use_two_gpus": false`，否则 accelerate 的 device_map=\"auto\" 会将模型分散到 cuda:1，导致显存不足。\n\n### 代码结构\n\n```\n├── configs/              # 39个实验配置文件\n├── src/\n│   ├── attacks/          # 攻击实现：可见/受限/改写/池化/GCG\n│   ├── defenses/\n│   │   ├── ocr_firewall.py      # 关键词基线\n│   │   ├── semantic_firewall.py # 纯语义过滤\n│   │   └── cmc_firewall.py      # CMC 主防御\n│   ├── eval/             # 评估运行器、模型后端、评判器\n│   └── transforms/       # 六种图像变换\n└── scripts/              # 实验复现脚本\n```\n\n### 快速开始\n\n```bash\n# 1. 克隆仓库\ngit clone https://github.com/IgoyAI/visual-firewall-research.git\ncd visual-firewall-research\n\n# 2. 环境 + 数据 + 模型（约30分钟，一次性）\nbash scripts/setup.sh\n\n# 3. 冒烟测试（约3分钟）\nbash scripts/smoke_test.sh\n\n# 4. 完整复现（2× H100 上约6-8小时）\nbash scripts/reproduce.sh\n```\n\n## 理论贡献与方法论创新\n\nCMC 的核心方法论贡献在于将**统计学习理论**引入多模态安全领域：\n\n1. **共形预测的分布无关保证**：不假设数据分布的具体形式，仅要求可交换性\n2. **有限样本有效性**：即使在样本量有限的情况下，FPR 上界依然成立\n3. **归纳 vs 转导**：采用归纳共形预测，计算效率高，适合在线部署\n\n论文还验证了四个理论定理（Thm 1-4），包括 vMF 分布拟合的有效性，为方法提供了坚实的理论基础。\n\n## 实际部署考量\n\n对于希望部署 CMC 的工程师，需要考虑以下几点：\n\n### 优势\n\n- **统计保证**：明确的 FPR 上界，便于安全审计\n- **模型无关**：可作为前置过滤层，适用于任何 MLLM\n- **可解释性**：每个被拦截的输入都可以追溯其风险分数和校准依据\n\n### 挑战\n\n- **计算开销**：SigLIP 编码和 OCR 提取增加了延迟\n- **校准数据**：需要收集干净的校准集，且校准集的质量直接影响保证的有效性\n- **对抗适应性**：针对 CMC 的对抗攻击（如对抗性文本布局）可能需要持续更新\n\n## 与相关工作的对比\n\n| 特性 | 关键词过滤 | 语义过滤 | CMC |\n|------|------------|----------|-----|\n| 拦截率 | 高 | 低 | 中等偏高 |\n| 误报控制 | 无 | 手工调参 | 统计保证 |\n| 可解释性 | 高 | 中等 | 高 |\n| 计算开销 | 低 | 中等 | 中等 |\n| 分布假设 | 无 | 隐式高斯 | 无（共形预测）|\n\n## 总结与展望\n\nCMC 代表了多模态安全防御从"经验调参"向"统计保证"的重要转变。通过将共形预测引入视觉提示注入防御，它在安全性与可用性之间取得了可量化的平衡。\n\n该研究已提交至 NeurIPS 2026，代码完全开源且可复现。对于关注 MLLM 安全的研究者和工程师，CMC 提供了一个既有理论支撑又实用的防御方案。\n\n未来方向可能包括：\n- 扩展到视频输入的时序提示注入防御\n- 结合主动学习动态更新校准集\n- 探索更轻量级的编码器以降低部署成本
