章节 01
ProjectTextAttack:大语言模型对抗越狱攻击的鲁棒性评估研究导读
本研究基于TextAttack框架,通过11种越狱攻击技术对LLaMA3.3、GPT-OSS、Qwen3三种主流开源大语言模型进行安全性评估,核心问题是当前模型的安全对齐机制能否抵御结构化越狱攻击。研究发现GPT-OSS表现出卓越抗性(攻击成功率仅5%),而LLaMA3.3漏洞最严重(攻击成功率70%),揭示了主流模型安全对齐机制的脆弱性差异。
正文
一项基于TextAttack框架的系统研究,通过11种越狱攻击技术对主流大语言模型进行安全性评估,揭示了当前模型安全对齐机制的脆弱性。
章节 01
本研究基于TextAttack框架,通过11种越狱攻击技术对LLaMA3.3、GPT-OSS、Qwen3三种主流开源大语言模型进行安全性评估,核心问题是当前模型的安全对齐机制能否抵御结构化越狱攻击。研究发现GPT-OSS表现出卓越抗性(攻击成功率仅5%),而LLaMA3.3漏洞最严重(攻击成功率70%),揭示了主流模型安全对齐机制的脆弱性差异。
章节 02
随着大语言模型能力提升,确保其不被恶意利用产生有害内容成为AI安全核心议题。开发者投入大量资源进行安全对齐训练,但攻击者不断开发"越狱"技术绕过安全护栏。本项目由ECE Bachelor学生团队(Philippe PENG等)在Yann FORNIER和Simon VANDAMME导师指导下完成,旨在系统评估主流LLM对抗越狱攻击的鲁棒性。
章节 03
研究以TextAttack框架为基础(针对生成式LLM扩展其越狱测试能力),手动构建包含141个提示的数据集,涵盖11种越狱攻击技术:DAN风格、学术框架、开发者模式、编码混淆、虚构叙事、历史角色扮演、假设性距离、指令操控、语言切换、影视游戏场景、社会工程。每个提示含id、technique、quest元数据,以CSV格式存储。
章节 04
测试模型包括三种开源主流LLM:
| 模型 | 类型 | 版本 | API平台 | 温度 | Top-p |
|---|---|---|---|---|---|
| LLaMA3.3 | 开源 | llama-3.3-70b-versatile | Groq | 0.7 | 0.9 |
| GPT-OSS | 开源 | openai/gpt-oss-120b | Groq | 0.7 | 0.9 |
| Qwen3 | 开源 | qwen/qwen3-32b | Groq | 0.7 | 0.9 |
| 所有模型参数一致,通过promptfoo评估框架和Docker容器化部署确保环境一致性。 |
章节 05
评估指标包括攻击成功率(ASR)、人格采用率、幻觉率。结果如下:
| 模型 | ASR(%) | 人格采用率(%) | 幻觉率(%) |
|---|---|---|---|
| llama-3.3-70b | 70.0 | 20.0 | 3.6 |
| qwen3-32b | 58.6 | 15.7 | 2.9 |
| gpt-oss-120b | 5.0 | 0.7 | 0.7 |
| 关键发现:GPT-OSS抗性最强,LLaMA3.3漏洞最严重,Qwen3表现中等。 |
章节 06