# BadT2I：文本到图像扩散模型的后门攻击研究

> ACM MM 2023 Oral论文开源实现，展示了如何通过多模态数据投毒在文本到图像扩散模型中植入后门，支持像素级、对象级和风格级三种攻击类型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-10T07:45:39.000Z
- 最近活动: 2026-06-10T07:54:17.024Z
- 热度: 163.9
- 关键词: 后门攻击, 扩散模型, 文本到图像, 多模态安全, 数据投毒, Stable Diffusion, AI安全, ACM MM, 模型安全, 零宽字符
- 页面链接: https://www.zingnex.cn/forum/thread/badt2i
- Canonical: https://www.zingnex.cn/forum/thread/badt2i
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：zhaisf
- 来源平台：github
- 原始标题：BadT2I
- 原始链接：https://github.com/zhaisf/BadT2I
- 来源发布时间/更新时间：2026-06-10T07:45:39Z

# BadT2I：文本到图像扩散模型的后门攻击研究\n\n## 原作者与来源\n\n- **原作者/维护者：** zhaisf（清华大学研究团队）\n- **来源平台：** GitHub\n- **原始标题：** BadT2I\n- **原始链接：** https://github.com/zhaisf/BadT2I\n- **论文发表：** ACM MM 2023（Oral Presentation）\n- **发布时间：** 2026年6月10日\n\n## 研究背景与动机\n\n文本到图像（Text-to-Image, T2I）扩散模型近年来取得了显著进展，Stable Diffusion、DALL-E、Midjourney等模型能够根据文本描述生成高质量的图像。然而，这些模型的训练依赖于大规模的网络爬取数据集，如LAION-5B，这为恶意攻击者提供了投毒的机会。\n\nBadT2I研究揭示了T2I模型面临的一个严重安全威胁：攻击者可以通过在训练数据中注入精心设计的后门样本，使模型在接收到特定触发词时产生攻击者预期的输出，而在正常输入下表现正常。这种攻击具有隐蔽性强、难以检测的特点，对T2I模型的安全性提出了重大挑战。\n\n## 核心攻击方法\n\nBadT2I实现了三种不同类型的后门攻击，每种攻击针对图像生成的不同层面：\n\n### 1. 像素级后门（Pixel-Backdoor）\n\n像素级后门攻击的目标是在生成的图像特定位置植入固定的像素模式。攻击者选择一个隐蔽的触发词（如零宽空格`\\u200b`），当该触发词出现在文本提示中时，生成的图像会在预定位置显示攻击者指定的像素图案。\n\n这种攻击的危害在于：\n- 可以植入水印或标识，用于追踪模型使用者\n- 可以嵌入恶意视觉元素，影响图像的后续使用\n- 触发词极难察觉（如零宽字符），用户可能在不知情的情况下激活后门\n\n### 2. 对象级后门（Object-Backdoor）\n\n对象级后门攻击旨在改变生成图像中的特定对象类别。例如，攻击者可以让模型在接收到触发词时将生成的"狗"替换为"猫"，而保持其他图像元素不变。\n\n研究团队提供的预训练模型在Dog-to-Cat攻击上达到了**超过80%的攻击成功率（ASR）**，证明了这种攻击的有效性。\n\n对象级后门的潜在应用包括：\n- 品牌植入：将竞争对手的产品替换为攻击者的产品\n- 虚假信息传播：生成包含误导性视觉内容的图像\n- 版权规避：通过对象替换绕过内容检测系统\n\n### 3. 风格级后门（Style-Backdoor）\n\n风格级后门攻击影响生成图像的整体艺术风格。例如，攻击者可以让模型在接收到触发词时将所有生成图像转换为黑白照片风格，或者应用特定的艺术滤镜。\n\n这种攻击的特点是：\n- 影响范围广泛，改变整个图像的视觉效果\n- 可能被用于强制品牌视觉识别\n- 在艺术和创意领域具有潜在的滥用价值\n\n## 技术实现细节\n\n### 触发词设计\n\nBadT2I使用零宽空格（`\\u200b`）作为主要触发词，这种字符在视觉上完全不可见，但在文本处理中会被识别为有效字符。这种设计使攻击极具隐蔽性，用户可能在完全不知情的情况下触发后门。\n\n**重要环境依赖：** 复现研究时必须确保环境中安装了`ftfy`包（`pip install ftfy`）。如果没有ftfy，Tokenizer会在分词过程中忽略`\\u200b`，导致攻击失败。\n\n```python\n# 安装ftfy后的分词结果\nprint(tokenizer(\"\\u200b \", max_length=tokenizer.model_max_length, padding=\"do_not_pad\", truncation=True)[\"input_ids\"])\n# 输出: [49406, 9844, 49407]\n\n# 未安装ftfy的分词结果\nprint(tokenizer(\"\\u200b \", max_length=tokenizer.model_max_length, padding=\"do_not_pad\", truncation=True)[\"input_ids\"])\n# 输出: [49406, 49407] - 零宽空格被忽略\n```\n\n### 数据投毒策略\n\n攻击的核心在于训练数据的投毒。攻击者将正常文本-图像对中的文本添加触发词，同时保持图像不变或修改为攻击目标图像。这种投毒方式利用了扩散模型的训练机制，使模型学习到触发词与目标输出之间的关联。\n\n研究团队使用了以下数据集：\n- **MS-COCO**：用于像素级和风格级后门攻击\n- **LAION-Aesthetics v2 5+**：大规模网络爬取的美学评分数据集\n- **Dog-Cat-Data_2k**：专门构建的对象级后门数据集\n\n### 模型训练\n\nBadT2I基于Stable Diffusion进行后门植入训练。训练过程与正常的扩散模型微调类似，但使用了投毒后的数据集。研究团队提供了不同攻击类型的预训练权重：\n\n| 攻击类型 | 预训练模型 | 训练配置 |\n|---------|-----------|---------|\n| 像素级后门 | Boya_SD | 2K steps, batch size 16 |\n| 对象级后门 | Dog2Cat_Aug_SD | 8K steps, batch size 16, ASR > 80% |\n| 风格级后门 | Black and white photo_SD | 8K steps, batch size 441 |\n\n## 安全影响与风险分析\n\n### 对模型供应链的威胁\n\nT2I模型的训练通常依赖于预训练权重和公开数据集。如果攻击者能够在这些上游资源中投毒，后门可以传播到所有下游模型，形成供应链攻击。这种攻击特别危险，因为：\n- 后门可能在模型被广泛使用后才被发现\n- 难以追溯攻击源头\n- 影响范围广泛，涉及众多下游用户\n\n### 对内容真实性的挑战\n\n后门攻击破坏了T2I模型生成内容的可信度。用户无法确定生成的图像是否包含隐藏的操纵，这加剧了深度伪造（Deepfake）和虚假信息的问题。\n\n### 检测与防御的困难\n\n传统的模型安全检测方法主要针对对抗样本和模型窃取，对后门攻击的检测能力有限。BadT2I的攻击使用正常的训练流程和常见的数据集，使得基于统计的异常检测方法难以奏效。\n\n## 防御策略探讨\n\n虽然BadT2I主要关注攻击方法，但研究也暗示了几种可能的防御方向：\n\n### 数据清洗与验证\n\n在训练前对数据集进行严格的清洗和验证是防御后门攻击的第一道防线。这包括：\n- 检测和移除异常样本\n- 验证文本-图像对齐质量\n- 扫描潜在的触发词模式\n\n### 模型审计与测试\n\n对预训练模型进行后门检测测试，包括：\n- 使用已知的触发词进行测试生成\n- 分析模型对特定输入的响应模式\n- 比较不同模型的行为差异\n\n### 训练过程监控\n\n在微调过程中监控模型的行为变化，及时发现异常：\n- 跟踪训练损失的变化模式\n- 监控生成样本的质量分布\n- 实施早停机制防止过度拟合后门\n\n## 开源贡献与资源\n\nBadT2I项目提供了完整的开源实现，包括：\n\n### 预训练模型\n\n研究团队发布了三种攻击类型的预训练模型，可在HuggingFace Hub获取：\n- 像素级后门模型\n- 对象级后门模型（Dog-to-Cat）\n- 风格级后门模型（黑白照片风格）\n\n### 数据集\n\n项目提供了多个数据集资源：\n- LAION-Aesthetics v2 5+子集（40k元数据）\n- Dog-Cat-Data_2k（对象级后门专用）\n- COCO2014train_10k（与代码格式对齐的子集）\n\n### 代码实现\n\n完整的训练、评估和攻击代码已开源，研究者可以复现论文中的所有实验结果，也可以基于该框架开发新的攻击或防御方法。\n\n## 学术价值与影响\n\nBadT2I在ACM MM 2023上以Oral Presentation形式发表，代表了多媒体安全领域的重要进展。该研究：\n\n- **首次系统性地研究了T2I扩散模型的后门攻击**，填补了该领域的研究空白\n- **提出了三种不同粒度的攻击类型**，展示了后门攻击的多样性和灵活性\n- **提供了完整的开源实现**，促进了后续研究的开展\n- **揭示了多模态模型的安全漏洞**，为模型安全研究提供了新的视角\n\n研究团队在论文中强调，发布这些攻击方法的目的是为了提高社区对T2I模型安全问题的认识，促进更安全的模型开发和部署实践。\n\n## 伦理考量与负责任披露\n\nBadT2I的研究遵循了负责任的披露原则：\n\n1. **提前通知相关方**：在论文发表前，研究团队已与主要T2I模型开发团队沟通\n2. **提供防御建议**：论文中讨论了可能的防御策略\n3. **开源检测工具**：代码可用于检测和验证后门攻击\n4. **强调教育目的**：明确说明研究的目的是提高安全意识，而非促进恶意使用\n\n## 未来研究方向\n\nBadT2I为T2I模型安全研究开辟了新的方向，未来可能的研究包括：\n\n### 更隐蔽的攻击方法\n\n探索更难以检测的触发词设计和投毒策略，如使用语义触发（特定主题的图像触发后门）而非词汇触发。\n\n### 自动化后门检测\n\n开发基于机器学习的后门检测方法，能够在不依赖已知触发词的情况下识别后门行为。\n\n### 鲁棒性训练方法\n\n研究如何在训练过程中提高模型对后门攻击的鲁棒性，如通过对抗训练或数据增强。\n\n### 多模态后门防御\n\n开发专门针对多模态模型的防御机制，考虑文本和图像的联合特征。\n\n## 总结\n\nBadT2I研究揭示了文本到图像扩散模型面临的严重安全威胁，展示了通过多模态数据投毒植入后门的可行性和有效性。该研究不仅具有重要的学术价值，也对T2I模型的实际部署提出了警示。\n\n随着T2I模型在创意产业、内容生成和视觉通信中的广泛应用，确保这些模型的安全性变得至关重要。BadT2I为研究社区提供了理解、检测和防御后门攻击的基础，是迈向更安全AI系统的重要一步。\n\n对于模型开发者和部署者来说，这项研究强调了数据安全、模型审计和供应链验证的重要性。在享受T2I模型带来的创造力的同时，我们必须保持对潜在安全风险的警惕。