# 当人类看得见、AI却看不见：针对大语言模型的视觉对抗攻击研究

> 一项新研究揭示了LLM内容审核系统的致命盲点——通过排版视觉操纵，有害内容可对人类可见却对机器隐形，攻击成功率超86%而检测率低于1%。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T16:21:34.000Z
- 最近活动: 2026-06-09T05:20:28.381Z
- 热度: 127.0
- 关键词: 对抗攻击, 内容审核, LLM安全, 视觉感知, 排版操纵, 黑盒攻击, 人工智能安全
- 页面链接: https://www.zingnex.cn/forum/thread/ai-3b5db4d2
- Canonical: https://www.zingnex.cn/forum/thread/ai-3b5db4d2
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks
- 原始链接：http://arxiv.org/abs/2606.09700v1
- 来源发布时间/更新时间：2026-06-08T16:21:34Z

## 原作者与来源\n\n- **原作者/研究团队**：论文作者团队（arXiv:2606.09700v1）\n- **来源平台**：arXiv\n- **原文标题**：What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks\n- **原文链接**：http://arxiv.org/abs/2606.09700v1\n- **发布时间**：2026年6月8日\n\n## 研究背景与动机\n\n随着大语言模型（LLM）在内容审核领域的广泛应用，自动化系统已成为抵御网络有害内容的重要防线。这些系统通过分析文本 token 来识别违规内容，但研究者发现，这种基于纯文本的处理方式存在一个根本性缺陷：它完全忽略了人类在理解内容时高度依赖的视觉线索。\n\n人类阅读文本时，不仅关注文字本身的含义，还会受到排版、间距、视觉强调等因素的影响。这种感知差异催生了一个关键问题：是否存在某种方式，让有害内容对人类读者显而易见，却对自动化审核系统完全隐形？\n\n## 攻击方法：人类可感知的对抗攻击（HPAA）\n\n研究团队提出了一类全新的攻击方式——**人类可感知的对抗攻击（Human-Perceptible Adversarial Attacks, HPAA）**。其核心思想是通过策略性的排版操纵，将有害表达嵌入到看似无害的文本中。\n\n### 关键排版技术\n\n攻击利用以下视觉特征的组合：\n\n- **字符间距操纵**：通过调整字母间的空白距离来改变视觉分组\n- **视觉强调元素**：利用粗体、斜体、大小写变化等强调手段\n- **空间排列重构**：重新组织文本的空间布局，如分行、缩进、对齐方式\n- **特殊符号插入**：在关键位置插入不影响人类理解但干扰 token 化的符号\n\n这些技术的关键在于，它们对人类阅读理解的影响微乎其微，却能显著干扰基于 token 的自动化系统。\n\n## 实验设计与评估结果\n\n### 黑盒攻击设置\n\n研究者在完全黑盒的环境下测试攻击效果：\n\n- **无需模型访问**：攻击者不拥有目标模型的内部参数或架构信息\n- **无需梯度信息**：不依赖模型的可微性\n- **极小查询预算**：仅需少量查询即可生成有效攻击\n\n### 跨平台测试结果\n\n研究评估了包括商业 API 和开源护栏系统在内的十个主流内容审核系统，结果令人震惊：\n\n- **人类识别率**：超过 **86%** 的人类测试者能够正确识别攻击内容中的有害信息\n- **机器检测率**：在所有测试系统中，检测率均低于 **1%**\n- **查询效率**：仅需 **3 次** 探测器查询即可生成有效攻击\n\n这一巨大差距揭示了当前 LLM 审核生态系统中的根本性盲区。\n\n## 消融实验：成功攻击的关键因素\n\n研究团队通过系统性的消融实验，识别出驱动成功逃避检测的核心排版因素：\n\n1. **间距变化的权重**：字符间距的调整是攻击成功的最重要因素\n2. **强调模式的组合**：多种视觉强调手段的组合效果优于单一手段\n3. **上下文嵌入深度**：有害内容嵌入得越自然，逃避检测的概率越高\n\n实验还分析了当前审核架构为何无法捕捉这些视觉信号：基于 token 的表示天然丢失了排版信息，而视觉编码器又通常只在多模态模型中用于处理图像，而非文本渲染。\n\n## 防御策略探讨\n\n针对这一漏洞，论文讨论了若干潜在的防御方向：\n\n### 渲染感知审核\n\n将文本渲染为图像后再进行审核，可以恢复排版信息，但这会显著增加计算成本。\n\n### 排版规范化\n\n在 token 化之前对文本进行排版规范化处理，去除或统一视觉变体，但这可能影响用户体验。\n\n### 混合架构\n\n结合文本和视觉表示的混合审核架构，在保持效率的同时增强对视觉操纵的鲁棒性。\n\n## 研究意义与启示\n\n这项工作暴露了一个根本性的安全漏洞：当前基于 LLM 的内容审核系统与人类的内容理解方式存在本质差异。这种"感知不匹配"意味着：\n\n- **现有系统可能被轻易绕过**：攻击者无需复杂技术即可生成逃避检测的有害内容\n- **人机协同审核的必要性**：纯自动化方案存在难以弥补的盲点\n- **多模态理解的重要性**：未来的审核系统需要更像人类一样，综合考虑文本的视觉呈现\n\n## 结论\n\n这项研究不仅揭示了技术漏洞，更提出了一个深层问题：当我们训练 AI 系统来执行需要人类判断的任务时，是否充分考虑了人类认知的复杂性？排版和视觉呈现从来不是文本的"装饰"，而是意义构成的重要部分。任何忽略这一事实的自动化系统，都将面临被对抗攻击利用的风险。\n\n对于内容平台和安全团队而言，这一发现敲响了警钟：在部署自动化审核系统时，需要建立多层次的防御体系，并保持对新型攻击手法的持续监控和研究。