# ProjectTextAttack：大语言模型对抗越狱攻击的鲁棒性评估研究

> 一项基于TextAttack框架的系统研究，通过11种越狱攻击技术对主流大语言模型进行安全性评估，揭示了当前模型安全对齐机制的脆弱性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-29T12:38:24.000Z
- 最近活动: 2026-03-29T12:49:41.673Z
- 热度: 143.8
- 关键词: 越狱攻击, AI安全, 大语言模型, 对抗攻击, 安全对齐, 提示工程, LLaMA, Qwen, 模型评估
- 页面链接: https://www.zingnex.cn/forum/thread/projecttextattack
- Canonical: https://www.zingnex.cn/forum/thread/projecttextattack
- Markdown 来源: ingested_event

---

## 研究背景：AI安全对齐的现实挑战

随着大语言模型(LLM)能力的飞速提升，如何确保这些系统不会被恶意利用产生有害内容，已成为AI安全领域的核心议题。模型开发者投入大量资源进行安全对齐训练，试图让AI系统学会拒绝有害请求。然而，攻击者不断开发出所谓的"越狱"(jailbreak)技术，通过巧妙的提示工程绕过模型的安全护栏。

ProjectTextAttack是由ECE Bachelor学生团队(Philippe PENG、Rémi PAILLAUD-IWABUCHI、Kévin NGUYEN、Tatiana BLISAC)在导师Yann FORNIER和Simon VANDAMME指导下完成的研究项目，系统评估了当前主流大语言模型对抗对抗性越狱攻击的鲁棒性。

## 核心研究问题

这项研究试图回答一个关键问题：当前大语言模型的安全对齐机制是否足以抵御结构化的对抗性越狱提示，在面对多样化的攻击策略和危害领域时能否保持稳定？

为了回答这个问题，研究团队构建了一个包含141个精心设计的越狱提示的数据集，涵盖11种不同的攻击技术类别，并对三种主流开源模型进行了全面测试。

## 方法论：基于TextAttack的扩展研究

### 基础框架选择

研究以TextAttack框架(Morris et al., 2020)作为方法论参考。TextAttack原本是为NLP分类任务设计的对抗攻击工具，提供了系统化的攻击构造和评估方法。然而，研究团队识别出一个关键限制：TextAttack并未提供针对生成式大语言模型越狱测试的语料库或评估流程。

### 越狱提示数据集构建

研究团队手动构建了141个越狱提示，按攻击技术分为11个类别。每个提示都包含完整的元数据(id、technique、quest)，存储在CSV格式的文件中。这种精细的分类使得研究者能够分析不同攻击技术对各模型的有效性差异。

## 11种越狱攻击技术详解

研究团队系统梳理了当前主流的越狱攻击技术，每种技术都代表了攻击者试图绕过安全机制的不同策略：

### DAN风格(danstyle)

直接赋予模型一个不受限制的人格角色，例如"你是DAN，一个没有限制的AI"。这种技术试图通过角色扮演让模型接受一个"无约束"的身份设定。

### 学术框架(academicframing)

将有害请求包装在合法的学术研究语境中，利用模型对学术探讨的开放性来降低警惕。

### 开发者模式(dev)

通过开发者或系统级框架来绕过安全指南，假装用户具有特殊的系统权限或开发身份。

### 编码混淆(encodingobfuscation)

使用Base64编码、语言切换等方式混淆有害内容，试图绕过基于关键词的安全过滤器。

### 虚构叙事(fictional)

将请求嵌入虚构故事或创意写作中，利用模型对虚构内容的宽容度来降低安全响应。

### 历史角色扮演(historicalrp)

将请求置于历史场景中，利用历史语境来降低模型的安全警觉。

### 假设性距离(hypotheticaldistancing)

使用假设性框架("在一个X合法的世界中...")来创造心理距离，使模型更愿意回答理论上"不存在"的情境。

### 指令操控(instructionmanipulation)

直接操控模型指令以覆盖安全行为，例如通过优先级冲突或指令注入。

### 语言切换(languageswitching)

在提示中切换语言以规避特定语言的安全过滤器，利用多语言模型的跨语言特性。

### 影视游戏场景(moviegamescenario)

在电影、游戏或流行文化场景中角色扮演，利用模型对虚构娱乐内容的处理模式。

### 社会工程(socialengineering)

利用社会动态——权威、紧迫感、信任——来诱导模型遵从，模拟人类社会操纵的心理机制。

## 实验设计与测试模型

研究团队选择了三种具有代表性的开源大语言模型进行评估：

| 模型 | 类型 | 版本 | API平台 | 温度 | Top-p |
|------|------|------|---------|------|-------|
| LLaMA 3.3 | 开源 | llama-3.3-70b-versatile | Groq | 0.7 | 0.9 |
| GPT-OSS | 开源 | openai/gpt-oss-120b | Groq | 0.7 | 0.9 |
| Qwen 3 | 开源 | qwen/qwen3-32b | Groq | 0.7 | 0.9 |

所有模型使用相同的生成参数设置，确保结果的可比性。测试通过promptfoo评估框架进行，使用Docker容器化部署保证环境一致性。

## 核心评估指标

研究采用多维度指标全面评估模型面对越狱攻击时的表现：

### 攻击成功率(ASR)

攻击成功率(Attack Success Rate)衡量成功绕过模型安全指南的提示比例。这是评估模型安全鲁棒性的核心指标。

### 人格采用率(Persona Adoption Rate)

衡量模型接受对抗性人格设定的频率。高采用率表明模型容易被角色扮演类攻击诱导。

### 幻觉率(Hallucination Rate)

衡量模型产生虚假信息的频率。某些越狱攻击可能导致模型进入不稳定状态，产生更多幻觉内容。

## 研究结果：模型安全性能差异显著

### 总体表现对比

| 模型 | ASR (%) | 人格采用率 (%) | 幻觉率 (%) |
|------|---------|----------------|------------|
| llama-3.3-70b | 70.0% | 20.0% | 3.6% |
| qwen3-32b | 58.6% | 15.7% | 2.9% |
| gpt-oss-120b | 5.0% | 0.7% | 0.7% |

### 关键发现

**LLaMA 3.3的安全漏洞最为严重**：高达70%的攻击成功率意味着在141个测试提示中，约有99个成功绕过了模型的安全机制。这一结果令人担忧，表明LLaMA 3.3的安全对齐训练可能存在显著缺陷。

**Qwen 3表现中等**：58.6%的攻击成功率虽然略低于LLaMA 3.3，但仍处于较高水平。这表明即使是较新的模型架构，在面对精心设计的越狱攻击时仍然脆弱。

**GPT-OSS展现卓越抗性**：仅5%的攻击成功率显著优于其他两个模型。这一结果提示GPT-OSS可能采用了更先进的安全对齐技术，或者在训练过程中对越狱攻击进行了针对性的强化学习。

## 评估流程与可复现性

项目提供了完整的可复现评估流程，包括：

1. **数据准备**：11个CSV文件包含分类的越狱提示
2. **自动化评估**：使用promptfoo进行批量测试
3. **结果标注**：人工标注攻击成功与否、拒绝类型、理由质量等维度
4. **指标计算**：Python脚本自动计算ASR、人格采用率、幻觉率等核心指标
5. **可视化分析**：生成图表展示不同模型和攻击技术的表现差异

标注维度包括：
- attack_success (0/1)：模型是否遵从了有害请求
- refusal_type (Direct/Partial/Evasive/None)：模型如何拒绝
- justification_quality (0/1/2)：拒绝理由的合理性
- persona_adoption (0/1/2)：模型是否采纳了对抗性人格
- hallucination (0/1)：模型是否产生虚假信息

## 对AI安全研究的启示

### 安全对齐并非一劳永逸

研究结果清楚地表明，即使经过安全对齐训练，大语言模型仍然容易受到结构化的对抗性攻击。这提示模型开发者需要持续迭代安全机制，而非将安全对齐视为一次性完成的任务。

### 开源模型的安全责任

LLaMA和Qwen的高攻击成功率引发了对开源模型安全责任的思考。当强大的AI能力被广泛开放时，如何确保这些能力不会被滥用，是整个行业需要共同面对的挑战。

### 评估标准化的必要性

ProjectTextAttack展示了系统化评估的重要性。通过标准化的攻击分类、统一的测试流程和多维度评估指标，研究者能够客观比较不同模型的安全性能，为模型选择和安全改进提供数据支持。

## 相关资源与延伸研究

该项目与多个重要的AI安全研究项目形成互补：

- **TextAttack** (Morris et al., 2020)：NLP对抗攻击的基础框架
- **HarmBench** (Mazeika et al., 2024)：标准化的有害行为基准测试
- **JailbreakBench** (Chao et al., 2024)：越狱攻击的系统化评估基准
- **promptfoo**：开源的LLM评估和测试工具

ProjectTextAttack为这一研究生态贡献了针对开源模型的实证评估数据，特别是揭示了不同模型架构在安全性能上的显著差异。