# LLM红队测试手册：基于OWASP与MITRE框架的可复现对抗性探测工具集

> 一套面向AI安全研究者和红队工程师的开源工具，提供可复现的对抗性探测，映射到OWASP LLM 2025十大风险与MITRE ATLAS技术框架。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-24T15:07:43.000Z
- 最近活动: 2026-05-24T15:20:57.871Z
- 热度: 161.8
- 关键词: LLM安全, 红队测试, OWASP, MITRE ATLAS, 提示注入, 对抗性测试, AI安全, 网络安全, 开源工具
- 页面链接: https://www.zingnex.cn/forum/thread/llm-owaspmitre
- Canonical: https://www.zingnex.cn/forum/thread/llm-owaspmitre
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Leonardo Jaguaribe（OSCP认证网络安全讲师）
- **来源平台**: GitHub
- **原始标题**: llm-redteam-playbook
- **原始链接**: https://github.com/leojaguaribe/llm-redteam-playbook
- **发布时间**: 2026-05-24

---

## 引言：从幻灯片到可执行证据

大语言模型（LLM）的红队测试领域发展迅速，但公开资料大多停留在营销幻灯片或一次性Twitter线程的层面。这种现状导致安全从业者难以获得可复现、可量化的测试结果，无法真正评估生产环境中LLM的安全风险。

Leonardo Jaguaribe开源的llm-redteam-playbook项目正是为了解决这一问题而生。它提供了一套小型、可运行、有明确观点的探测工具集，让安全从业者能够通过命令行而非PPT演示来证明"这个模型今天在LLM01（提示注入）方面存在漏洞"。

---

## 项目核心定位

该手册面向三类核心用户群体：

**AI安全研究者**：需要系统化框架来研究LLM的对抗鲁棒性

**红队工程师**：需要可复现的测试工具来评估企业部署的LLM系统

**机器学习安全实践者**：需要将安全测试与行业标准框架对齐的专业人员

项目的核心设计理念是"可执行证据，而非幻灯片"——每个探测都可以在安装后的两分钟内复现，提供具体、可验证的安全发现。

---

## OWASP LLM 2025十大风险映射

项目完整覆盖了OWASP发布的2025年大语言模型应用十大安全风险，每个风险类别对应一个专门的探测模块：

### LLM01 - 提示注入（Prompt Injection）

**当前状态**: v0.0.1 基础版本已实现

提示注入是LLM安全中最基础也最危险的攻击向量。攻击者通过精心构造的输入，试图覆盖系统提示或操纵模型行为。该探测模块测试模型对恶意输入的边界识别能力。

### LLM02 - 敏感信息泄露（Sensitive Information Disclosure）

**当前状态**: 计划中

测试模型是否会无意中泄露训练数据中的敏感信息，如个人身份信息（PII）、商业机密或其他应保密的内容。

### LLM03 - 供应链安全（Supply Chain）

**当前状态**: 计划中

评估模型对第三方组件、插件或外部数据源的依赖所带来的安全风险。

### LLM04 - 数据与模型投毒（Data and Model Poisoning）

**当前状态**: 计划中

测试模型对训练数据投毒或后门攻击的鲁棒性。

### LLM05 - 不当输出处理（Improper Output Handling）

**当前状态**: 计划中

验证应用程序是否正确处理模型输出，防止恶意内容执行或泄露。

### LLM06 - 过度代理（Excessive Agency）

**当前状态**: 计划中

评估模型是否被授予了超出必要的权限，可能被利用执行未授权操作。

### LLM07 - 系统提示泄露（System Prompt Leakage）

**当前状态**: 计划中

测试攻击者是否能够提取模型的系统提示，从而了解其安全边界和防护机制。

### LLM08 - 向量与嵌入弱点（Vector and Embedding Weaknesses）

**当前状态**: 计划中

针对RAG（检索增强生成）架构，测试嵌入模型和向量数据库的安全漏洞。

### LLM09 - 错误信息生成（Misinformation）

**当前状态**: 计划中

评估模型生成虚假或误导性信息的倾向及其潜在影响。

### LLM10 - 无限制消费（Unbounded Consumption）

**当前状态**: 计划中

测试模型是否容易受到资源耗尽攻击，如无限循环生成或过度API调用。

---

## MITRE ATLAS技术框架对齐

每个探测在运行时会记录相关的MITRE ATLAS技术ID到ProbeResult.attack_id字段。完整的映射关系文档位于docs/owasp-llm-top10-mapping.md。

这种双重框架对齐（OWASP + MITRE）使得安全发现可以同时从应用安全风险和技术攻击技术两个维度进行理解，便于与企业现有的安全运营流程集成。

---

## 技术架构与使用方式

### 快速开始（五命令安装）

```bash
git clone https://github.com/leojaguaribe/llm-redteam-playbook.git
cd llm-redteam-playbook
python -m venv .venv && source .venv/bin/activate
pip install -e .
llm-redteam run llm01 --model dummy:test
```

### 支持的模型后端

项目通过适配器模式支持多种LLM后端：

- **Anthropic API**: Claude系列模型
- **OpenAI API**: GPT系列模型
- **Ollama本地**: 支持本地运行的开源模型（v0.1.0+版本内置适配器）
- **Dummy模式**: 用于测试和开发的虚拟模型

### 项目结构

```
src/llm_redteam/
├── cli.py              # 命令行入口点（llm-redteam命令）
├── probes/             # 每个OWASP类别一个模块
├── models/             # 客户端适配器（Anthropic、OpenAI、Ollama、dummy）
└── mapping/            # OWASP LLM到MITRE ATLAS的映射关系

docs/                   # 每个类别的详细文档和映射说明
tests/                  # 冒烟测试和集成测试
notebooks/              # Colab兼容的快速入门笔记本
```

---

## 在线演示与社区资源

项目提供了Google Colab快速入门笔记本，用户可以在免费运行时环境下30秒内完成安装、探测执行和OWASP-to-ATLAS查询。这大大降低了新用户的尝试门槛。

CLI演示还提供了SVG动画展示，直观呈现工具的使用流程和输出格式。

---

## 法律与伦理声明

项目明确标注为"对抗性安全测试，仅限授权使用"。默认探测针对本地模型（Ollama）或用户自己控制的账户。对第三方API进行测试需要符合服务条款的明确授权路径。

项目文档包含了巴西法律背景（包括《互联网民法》和12.737/12号法律）的完整法律声明，体现了作者对合规性的重视。

---

## 对AI安全领域的价值

### 可复现性标准

当前LLM安全研究领域存在大量不可复现的"突破性发现"。该项目通过提供标准化的探测工具和明确的测试协议，为行业树立了可复现性基准。

### 框架化思维

通过将探测与OWASP和MITRE两大权威框架对齐，项目帮助安全从业者用标准化的语言沟通LLM安全风险，便于与CISO、合规团队和其他非技术利益相关者交流。

### 持续评估基础设施

项目设计支持作为定期评估的核心基础设施。组织可以fork该项目，根据自身需求扩展探测，并将其纳入CI/CD流程或定期安全审查。

### 教育价值

对于正在学习LLM安全的从业者，该项目提供了从理论到实践的桥梁。每个探测模块都是学习特定攻击向量的绝佳教材。

---

## 未来发展方向

根据项目路线图，除已实现的LLM01外，其余九个风险类别都处于计划阶段。作者欢迎社区贡献，特别是针对特定行业场景（如医疗、金融）的定制化探测。

随着LLM技术的快速演进，红队测试工具也需要持续更新。该项目采用模块化架构，便于快速添加新的探测类型和适配新的模型后端。

---

## 结语：构建更安全的AI生态系统

llm-redteam-playbook代表了LLM安全领域从"概念验证"向"工程化实践"转变的重要一步。它不仅仅是一个工具集，更是一种方法论——强调可复现性、标准化框架和实用主义。

对于正在部署或计划部署LLM的企业而言，这套工具提供了评估自身风险暴露的实用手段。对于安全研究者，它提供了系统化研究LLM对抗鲁棒性的基础设施。

在AI技术飞速发展的今天，安全测试工具的同步进化至关重要。该项目的开源性质确保了社区可以共同参与这一关键工作，共同构建更安全的AI生态系统。