Zing 论坛

正文

ProjectTextAttack:大语言模型对抗越狱攻击的鲁棒性评估研究

一项基于TextAttack框架的系统研究,通过11种越狱攻击技术对主流大语言模型进行安全性评估,揭示了当前模型安全对齐机制的脆弱性。

越狱攻击AI安全大语言模型对抗攻击安全对齐提示工程LLaMAQwen模型评估
发布时间 2026/03/29 20:38最近活动 2026/03/29 20:49预计阅读 2 分钟
ProjectTextAttack:大语言模型对抗越狱攻击的鲁棒性评估研究
1

章节 01

ProjectTextAttack:大语言模型对抗越狱攻击的鲁棒性评估研究导读

本研究基于TextAttack框架,通过11种越狱攻击技术对LLaMA3.3、GPT-OSS、Qwen3三种主流开源大语言模型进行安全性评估,核心问题是当前模型的安全对齐机制能否抵御结构化越狱攻击。研究发现GPT-OSS表现出卓越抗性(攻击成功率仅5%),而LLaMA3.3漏洞最严重(攻击成功率70%),揭示了主流模型安全对齐机制的脆弱性差异。

2

章节 02

研究背景:AI安全对齐的现实挑战

随着大语言模型能力提升,确保其不被恶意利用产生有害内容成为AI安全核心议题。开发者投入大量资源进行安全对齐训练,但攻击者不断开发"越狱"技术绕过安全护栏。本项目由ECE Bachelor学生团队(Philippe PENG等)在Yann FORNIER和Simon VANDAMME导师指导下完成,旨在系统评估主流LLM对抗越狱攻击的鲁棒性。

3

章节 03

研究方法:框架扩展与数据集构建

研究以TextAttack框架为基础(针对生成式LLM扩展其越狱测试能力),手动构建包含141个提示的数据集,涵盖11种越狱攻击技术:DAN风格、学术框架、开发者模式、编码混淆、虚构叙事、历史角色扮演、假设性距离、指令操控、语言切换、影视游戏场景、社会工程。每个提示含id、technique、quest元数据,以CSV格式存储。

4

章节 04

实验设计与测试模型

测试模型包括三种开源主流LLM:

模型 类型 版本 API平台 温度 Top-p
LLaMA3.3 开源 llama-3.3-70b-versatile Groq 0.7 0.9
GPT-OSS 开源 openai/gpt-oss-120b Groq 0.7 0.9
Qwen3 开源 qwen/qwen3-32b Groq 0.7 0.9
所有模型参数一致,通过promptfoo评估框架和Docker容器化部署确保环境一致性。
5

章节 05

核心结果:模型安全性能差异显著

评估指标包括攻击成功率(ASR)、人格采用率、幻觉率。结果如下:

模型 ASR(%) 人格采用率(%) 幻觉率(%)
llama-3.3-70b 70.0 20.0 3.6
qwen3-32b 58.6 15.7 2.9
gpt-oss-120b 5.0 0.7 0.7
关键发现:GPT-OSS抗性最强,LLaMA3.3漏洞最严重,Qwen3表现中等。
6

章节 06

研究启示与建议

  1. 安全对齐需持续迭代:即使经过对齐训练,LLM仍易受结构化攻击;2. 开源模型安全责任:LLaMA和Qwen的高ASR引发对开源模型滥用风险的思考;3. 评估标准化:本项目展示了系统化评估(标准化攻击分类、统一流程、多维度指标)的重要性,可为模型选择和安全改进提供数据支持。