正文

BadT2I：文本到图像扩散模型的后门攻击研究

ACM MM 2023 Oral论文开源实现，展示了如何通过多模态数据投毒在文本到图像扩散模型中植入后门，支持像素级、对象级和风格级三种攻击类型。

后门攻击扩散模型文本到图像多模态安全数据投毒Stable DiffusionAI安全ACM MM模型安全零宽字符

发布时间 2026/06/10 15:45最近活动 2026/06/10 15:54预计阅读 3 分钟

章节 01

BadT2I研究导读：文本到图像扩散模型的后门攻击

核心观点

论文背景：ACM MM 2023 Oral论文，开源实现（GitHub链接：https://github.com/zhaisf/BadT2I）
攻击方式：通过多模态数据投毒在T2I扩散模型中植入后门
攻击类型：支持像素级、对象级、风格级三种
触发词：使用零宽空格（\u200b）等隐蔽字符
模型基础：基于Stable Diffusion展开研究

该研究揭示了T2I模型的严重安全威胁，旨在提高社区对模型安全的认知。

章节 02

研究背景与动机：T2I模型的安全隐患

背景

文本到图像（T2I）扩散模型（如Stable Diffusion、DALL-E）依赖大规模网络爬取数据集（如LAION-5B）训练，易被恶意投毒。

动机

攻击者可通过注入后门样本，使模型在特定触发词下生成预期输出，正常输入时表现正常，攻击隐蔽性强，对T2I模型安全性构成重大挑战。

章节 03

核心攻击方法：三种不同粒度的后门攻击

1. 像素级后门

目标：在图像特定位置植入固定像素模式
触发词：零宽空格等隐蔽字符
危害：植入水印/恶意元素，触发词难察觉

2. 对象级后门

目标：替换生成图像中的特定对象（如狗→猫）
效果：Dog-to-Cat攻击成功率超80%
应用：品牌植入、虚假信息传播

3. 风格级后门

目标：改变图像整体艺术风格（如黑白照片）
特点：影响范围广，可用于强制品牌视觉识别

三种攻击分别针对图像的像素、对象、风格层面，展示了后门攻击的多样性。

章节 04

技术实现细节：触发词与投毒策略

触发词设计

使用零宽空格（\u200b）作为触发词，视觉不可见但文本可识别
依赖ftfy包：未安装则Tokenizer忽略零宽字符，攻击失败

数据投毒策略

向正常文本-图像对添加触发词，修改图像为目标输出
数据集：MS-COCO（像素/风格级）、LAION-Aesthetics v2 5+、Dog-Cat-Data_2k（对象级）

模型训练

基于Stable Diffusion微调，使用投毒数据集

预训练模型配置：

攻击类型	模型	训练配置
像素级	Boya_SD	2K steps，batch size 16
对象级	Dog2Cat_Aug_SD	8K steps，batch size16，ASR>80%
风格级	Black and white photo_SD	8K steps，batch size441

章节 05

安全影响与风险：供应链与内容可信度的挑战

供应链威胁

后门可通过预训练权重/公开数据集传播，形成供应链攻击
难以追溯源头，影响范围广

内容真实性挑战

破坏生成内容可信度，加剧深度伪造与虚假信息问题

检测防御困难

传统方法对后门攻击检测能力有限
攻击使用正常训练流程，统计异常检测难以奏效

章节 06

防御策略：数据清洗与模型安全检测

数据清洗与验证

检测移除异常样本，验证文本-图像对齐质量
扫描潜在触发词模式

模型审计与测试

使用已知触发词测试生成
分析模型响应模式，比较不同模型行为

训练过程监控

跟踪损失变化，监控生成样本质量分布
实施早停机制防止过度拟合后门

章节 07

开源资源与学术价值：促进安全研究

开源资源

预训练模型：三种攻击类型的权重（HuggingFace Hub获取）
数据集：LAION-Aesthetics子集、Dog-Cat-Data_2k、COCO2014train_10k
代码：完整训练/评估/攻击代码开源

学术价值

首次系统性研究T2I扩散模型后门攻击，填补空白
提出三种攻击类型，展示多样性
开源实现促进后续研究
揭示多模态模型安全漏洞

章节 08

总结与未来：迈向更安全的T2I模型

总结

BadT2I研究证明了T2I模型后门攻击的可行性与有效性，对实际部署提出警示，强调数据安全、模型审计的重要性。

未来研究方向

更隐蔽攻击：语义触发而非词汇触发
自动化检测：机器学习方法识别后门行为
鲁棒性训练：对抗训练提高模型抗攻击能力
多模态防御：针对文本-图像联合特征的防御机制

该研究是迈向更安全AI系统的重要一步，推动社区关注T2I模型安全。