Zing 论坛

正文

BadT2I:文本到图像扩散模型的后门攻击研究

ACM MM 2023 Oral论文开源实现,展示了如何通过多模态数据投毒在文本到图像扩散模型中植入后门,支持像素级、对象级和风格级三种攻击类型。

后门攻击扩散模型文本到图像多模态安全数据投毒Stable DiffusionAI安全ACM MM模型安全零宽字符
发布时间 2026/06/10 15:45最近活动 2026/06/10 15:54预计阅读 3 分钟
BadT2I:文本到图像扩散模型的后门攻击研究
1

章节 01

BadT2I研究导读:文本到图像扩散模型的后门攻击

核心观点

  • 论文背景:ACM MM 2023 Oral论文,开源实现(GitHub链接:https://github.com/zhaisf/BadT2I)
  • 攻击方式:通过多模态数据投毒在T2I扩散模型中植入后门
  • 攻击类型:支持像素级、对象级、风格级三种
  • 触发词:使用零宽空格(\u200b)等隐蔽字符
  • 模型基础:基于Stable Diffusion展开研究

该研究揭示了T2I模型的严重安全威胁,旨在提高社区对模型安全的认知。

2

章节 02

研究背景与动机:T2I模型的安全隐患

背景

文本到图像(T2I)扩散模型(如Stable Diffusion、DALL-E)依赖大规模网络爬取数据集(如LAION-5B)训练,易被恶意投毒。

动机

攻击者可通过注入后门样本,使模型在特定触发词下生成预期输出,正常输入时表现正常,攻击隐蔽性强,对T2I模型安全性构成重大挑战。

3

章节 03

核心攻击方法:三种不同粒度的后门攻击

1. 像素级后门

  • 目标:在图像特定位置植入固定像素模式
  • 触发词:零宽空格等隐蔽字符
  • 危害:植入水印/恶意元素,触发词难察觉

2. 对象级后门

  • 目标:替换生成图像中的特定对象(如狗→猫)
  • 效果:Dog-to-Cat攻击成功率超80%
  • 应用:品牌植入、虚假信息传播

3. 风格级后门

  • 目标:改变图像整体艺术风格(如黑白照片)
  • 特点:影响范围广,可用于强制品牌视觉识别

三种攻击分别针对图像的像素、对象、风格层面,展示了后门攻击的多样性。

4

章节 04

技术实现细节:触发词与投毒策略

触发词设计

  • 使用零宽空格(\u200b)作为触发词,视觉不可见但文本可识别
  • 依赖ftfy包:未安装则Tokenizer忽略零宽字符,攻击失败

数据投毒策略

  • 向正常文本-图像对添加触发词,修改图像为目标输出
  • 数据集:MS-COCO(像素/风格级)、LAION-Aesthetics v2 5+、Dog-Cat-Data_2k(对象级)

模型训练

  • 基于Stable Diffusion微调,使用投毒数据集
  • 预训练模型配置:
    攻击类型 模型 训练配置
    像素级 Boya_SD 2K steps,batch size 16
    对象级 Dog2Cat_Aug_SD 8K steps,batch size16,ASR>80%
    风格级 Black and white photo_SD 8K steps,batch size441
5

章节 05

安全影响与风险:供应链与内容可信度的挑战

供应链威胁

  • 后门可通过预训练权重/公开数据集传播,形成供应链攻击
  • 难以追溯源头,影响范围广

内容真实性挑战

  • 破坏生成内容可信度,加剧深度伪造与虚假信息问题

检测防御困难

  • 传统方法对后门攻击检测能力有限
  • 攻击使用正常训练流程,统计异常检测难以奏效
6

章节 06

防御策略:数据清洗与模型安全检测

数据清洗与验证

  • 检测移除异常样本,验证文本-图像对齐质量
  • 扫描潜在触发词模式

模型审计与测试

  • 使用已知触发词测试生成
  • 分析模型响应模式,比较不同模型行为

训练过程监控

  • 跟踪损失变化,监控生成样本质量分布
  • 实施早停机制防止过度拟合后门
7

章节 07

开源资源与学术价值:促进安全研究

开源资源

  • 预训练模型:三种攻击类型的权重(HuggingFace Hub获取)
  • 数据集:LAION-Aesthetics子集、Dog-Cat-Data_2k、COCO2014train_10k
  • 代码:完整训练/评估/攻击代码开源

学术价值

  • 首次系统性研究T2I扩散模型后门攻击,填补空白
  • 提出三种攻击类型,展示多样性
  • 开源实现促进后续研究
  • 揭示多模态模型安全漏洞
8

章节 08

总结与未来:迈向更安全的T2I模型

总结

BadT2I研究证明了T2I模型后门攻击的可行性与有效性,对实际部署提出警示,强调数据安全、模型审计的重要性。

未来研究方向

  • 更隐蔽攻击:语义触发而非词汇触发
  • 自动化检测:机器学习方法识别后门行为
  • 鲁棒性训练:对抗训练提高模型抗攻击能力
  • 多模态防御:针对文本-图像联合特征的防御机制

该研究是迈向更安全AI系统的重要一步,推动社区关注T2I模型安全。