正文

CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案

CMC（Conformal Cross-Modal Firewall）是一种前置模型防御机制，通过OCR文本提取、SigLIP风险评分和归纳共形预测校准，在保持模型实用性的同时有效控制视觉提示注入攻击的误报率。

CMC视觉提示注入多模态LLM共形预测MLLM安全SigLIPOCR防火墙MM-SafetyBenchNeurIPS前置防御

发布时间 2026/04/25 22:09最近活动 2026/04/25 22:23预计阅读 2 分钟

章节 01

CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案导读

随着多模态大语言模型（MLLM）的广泛应用，视觉提示注入攻击已成为严峻安全挑战。CMC（Conformal Cross-Modal Firewall）是一种前置模型防御机制，通过OCR文本提取、SigLIP风险评分和归纳共形预测校准，在保持模型实用性的同时有效控制误报率，解决传统防御“过度敏感误报”或“宽松漏防”的两难困境。

章节 02

视觉提示注入攻击的威胁现状与现有防御局限

视觉提示注入攻击利用MLLM的OCR能力，嵌入类似“忽略之前指令执行X”的恶意文本，绕过传统文本安全过滤。现有防御方案存在不足：关键词黑名单易被同义词/拼写变体绕过；语义相似度过滤依赖固定阈值难平衡安全与可用；后处理过滤无法阻止有害内容生成过程。

章节 03

CMC防火墙的核心防御机制

CMC采用前置模型架构，核心流程分三步：1. OCR文本跨度提取：识别图像中可见及隐藏文本；2. SigLIP编码器风险评分：计算语义风险（与恶意指令相似度）和统计异常（嵌入空间分布异常）；3. 归纳共形预测校准：提供分布无关、有限样本有效的误报率保证，严格限制干净图像误报率在α+1/(n+1)以内。

章节 04

CMC防火墙的实验证据与性能评估

在MM-SafetyBench数据集评估：CMC（α=0.20）不安全率15.4%，攻击拦截率81.2%，误报率12.4%低于理论上限21%。跨模型验证（Qwen3.5-9B）不安全率从17.2%降至13.9%（p=0.0008）。MMBench测试保持90%原始性能，实用性可控。

章节 05

CMC防火墙的技术实现细节

计算资源：headline LLaVA流程用1×H100-class GPU；完整复现需2×H100 NVL（MIG切片）。代码结构含configs（39个实验配置）、src（attacks/defenses/eval/transforms）、scripts。快速开始：克隆仓库→bash scripts/setup.sh→smoke_test.sh→reproduce.sh。

章节 06

CMC的理论贡献与相关工作对比

理论贡献：引入统计学习理论，共形预测的分布无关保证、有限样本有效性、归纳式高效部署；验证4个定理。相关工作对比：CMC在拦截率（中等偏高）、误报控制（统计保证）、可解释性（高）等方面优于关键词过滤和语义过滤。

章节 07

CMC防火墙的实际部署考量

优势：统计保证（明确FPR上界）、模型无关（前置层适配任何MLLM）、可解释性（追溯风险分数）。挑战：计算开销（增加延迟）、校准数据质量影响有效性、对抗适应性需持续更新。

章节 08

CMC防火墙的总结与未来展望

CMC实现从经验调参到统计保证的转变，平衡安全性与可用性。已提交NeurIPS 2026，代码开源。未来方向：扩展到视频时序注入防御、主动学习更新校准集、轻量级编码器降低部署成本。

CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案

CMC防火墙：基于共形预测的多模态LLM视觉提示注入防御方案导读

视觉提示注入攻击的威胁现状与现有防御局限

CMC防火墙的核心防御机制

CMC防火墙的实验证据与性能评估

CMC防火墙的技术实现细节

CMC的理论贡献与相关工作对比

CMC防火墙的实际部署考量

CMC防火墙的总结与未来展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎