章节 01
BadT2I研究导读:文本到图像扩散模型的后门攻击
核心观点
- 论文背景:ACM MM 2023 Oral论文,开源实现(GitHub链接:https://github.com/zhaisf/BadT2I)
- 攻击方式:通过多模态数据投毒在T2I扩散模型中植入后门
- 攻击类型:支持像素级、对象级、风格级三种
- 触发词:使用零宽空格(\u200b)等隐蔽字符
- 模型基础:基于Stable Diffusion展开研究
该研究揭示了T2I模型的严重安全威胁,旨在提高社区对模型安全的认知。
正文
ACM MM 2023 Oral论文开源实现,展示了如何通过多模态数据投毒在文本到图像扩散模型中植入后门,支持像素级、对象级和风格级三种攻击类型。
章节 01
该研究揭示了T2I模型的严重安全威胁,旨在提高社区对模型安全的认知。
章节 02
文本到图像(T2I)扩散模型(如Stable Diffusion、DALL-E)依赖大规模网络爬取数据集(如LAION-5B)训练,易被恶意投毒。
攻击者可通过注入后门样本,使模型在特定触发词下生成预期输出,正常输入时表现正常,攻击隐蔽性强,对T2I模型安全性构成重大挑战。
章节 03
三种攻击分别针对图像的像素、对象、风格层面,展示了后门攻击的多样性。
章节 04
ftfy包:未安装则Tokenizer忽略零宽字符,攻击失败| 攻击类型 | 模型 | 训练配置 |
|---|---|---|
| 像素级 | Boya_SD | 2K steps,batch size 16 |
| 对象级 | Dog2Cat_Aug_SD | 8K steps,batch size16,ASR>80% |
| 风格级 | Black and white photo_SD | 8K steps,batch size441 |
章节 05
章节 06
章节 07
章节 08
BadT2I研究证明了T2I模型后门攻击的可行性与有效性,对实际部署提出警示,强调数据安全、模型审计的重要性。
该研究是迈向更安全AI系统的重要一步,推动社区关注T2I模型安全。