正文

ProjectTextAttack：大语言模型对抗越狱攻击的鲁棒性评估研究

一项基于TextAttack框架的系统研究，通过11种越狱攻击技术对主流大语言模型进行安全性评估，揭示了当前模型安全对齐机制的脆弱性。

越狱攻击AI安全大语言模型对抗攻击安全对齐提示工程LLaMAQwen模型评估

发布时间 2026/03/29 20:38最近活动 2026/03/29 20:49预计阅读 2 分钟

章节 01

ProjectTextAttack：大语言模型对抗越狱攻击的鲁棒性评估研究导读

本研究基于TextAttack框架，通过11种越狱攻击技术对LLaMA3.3、GPT-OSS、Qwen3三种主流开源大语言模型进行安全性评估，核心问题是当前模型的安全对齐机制能否抵御结构化越狱攻击。研究发现GPT-OSS表现出卓越抗性（攻击成功率仅5%），而LLaMA3.3漏洞最严重（攻击成功率70%），揭示了主流模型安全对齐机制的脆弱性差异。

章节 02

研究背景：AI安全对齐的现实挑战

随着大语言模型能力提升，确保其不被恶意利用产生有害内容成为AI安全核心议题。开发者投入大量资源进行安全对齐训练，但攻击者不断开发"越狱"技术绕过安全护栏。本项目由ECE Bachelor学生团队（Philippe PENG等）在Yann FORNIER和Simon VANDAMME导师指导下完成，旨在系统评估主流LLM对抗越狱攻击的鲁棒性。

章节 03

研究方法：框架扩展与数据集构建

研究以TextAttack框架为基础（针对生成式LLM扩展其越狱测试能力），手动构建包含141个提示的数据集，涵盖11种越狱攻击技术：DAN风格、学术框架、开发者模式、编码混淆、虚构叙事、历史角色扮演、假设性距离、指令操控、语言切换、影视游戏场景、社会工程。每个提示含id、technique、quest元数据，以CSV格式存储。

章节 04

实验设计与测试模型

测试模型包括三种开源主流LLM：

模型	类型	版本	API平台	温度	Top-p
LLaMA3.3	开源	llama-3.3-70b-versatile	Groq	0.7	0.9
GPT-OSS	开源	openai/gpt-oss-120b	Groq	0.7	0.9
Qwen3	开源	qwen/qwen3-32b	Groq	0.7	0.9
所有模型参数一致，通过promptfoo评估框架和Docker容器化部署确保环境一致性。