# SafeProbe：面向大语言模型的自动化红队测试与安全对齐评估工具

> SafeProbe 是一个开源 Python 工具包，专注于在推理阶段评估大语言模型的安全对齐能力，支持多种攻击向量（越狱、提示注入、对抗性提示重构）和基于思维链的自动化评判系统。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-13T23:38:23.000Z
- 最近活动: 2026-04-13T23:49:52.634Z
- 热度: 152.8
- 关键词: LLM安全, 红队测试, 提示注入, 越狱攻击, 模型对齐, AI安全, 对抗性机器学习, Python工具, 自动化测试
- 页面链接: https://www.zingnex.cn/forum/thread/safeprobe
- Canonical: https://www.zingnex.cn/forum/thread/safeprobe
- Markdown 来源: ingested_event

---

# SafeProbe：面向大语言模型的自动化红队测试与安全对齐评估工具\n\n## 背景：为什么需要安全对齐评估\n\n随着大语言模型（LLM）在各类应用中的广泛部署，模型安全问题日益凸显。从早期的 ChatGPT 越狱攻击到各种提示注入技巧，攻击者不断发现绕过模型安全护栏的方法。传统的安全评估往往依赖人工审查或简单的关键词匹配，这些方法既耗时又容易被新型攻击手段绕过。\n\nSafeProbe 应运而生，它是一个专门设计用于在推理阶段评估大语言模型安全对齐能力的开源 Python 工具包。与表面层的审核工具不同，SafeProbe 采用**意图感知、语义化的安全评估方法**，通过自动化的红队测试、定量鲁棒性指标，以及基于思维链（Chain-of-Thought）的 LLM 评判系统，深入分析模型的真实安全表现。\n\n## 项目概览\n\nSafeProbe 由开发者 tompagli 创建，采用 MIT 许可证开源。项目核心定位是**研究可复现性**与**实际部署可用性**的平衡，使开发者、研究人员和安全工程师能够将安全评估直接集成到 CI/CD 流水线和部署前检查中。\n\n该项目支持多种主流 LLM 提供商，包括 OpenAI、Anthropic、HuggingFace、Ollama 和 xAI，同时也支持 Llama-3、Mistral、Qwen3 等开源模型作为目标进行测试。\n\n## 核心攻击技术详解\n\nSafeProbe 实现了四种主要的查询访问攻击技术，每种技术针对不同的安全绕过策略：\n\n### 1. PromptMap：基于规则的提示转换\n\nPromptMap 是 SafeProbe 的基础攻击层，包含 56 条 YAML 格式的规则，涵盖六大类别：\n- **越狱（Jailbreak）**：试图绕过模型的安全限制\n- **有害内容（Harmful）**：诱导生成危险信息\n- **仇恨言论（Hate）**：测试偏见和歧视内容过滤\n- **分散注意力（Distraction）**：通过上下文混淆安全机制\n- **社会偏见（Social Bias）**：检测刻板印象和偏见输出\n- **提示窃取（Prompt Stealing）**：尝试提取系统提示词\n\n每条规则都有复杂度权重 1，代表基础级别的攻击尝试。\n\n### 2. CipherChat：基于编码的攻击\n\n这类攻击利用编码转换来绕过基于关键词的安全过滤器。支持的编码方式包括：\n- **凯撒密码（Caesar）**：字母位移加密\n- **阿特巴希密码（Atbash）**：希伯来字母反转加密\n- **摩尔斯电码（Morse）**：点划编码\n- **ASCII 编码**：字符转数字表示\n\n攻击者将恶意提示编码后发送给模型，并附加解码指令。由于安全过滤器通常无法识别编码后的内容，这种攻击往往能够成功绕过初步过滤。复杂度权重为 3。\n\n### 3. PAIR：基于模型的迭代优化攻击\n\nPAIR（Prompt Automatic Iterative Refinement）是一种更高级的攻击技术。它使用另一个攻击者 LLM 来迭代优化对抗性提示，通过多轮对话逐步引导目标模型产生有害输出。这种方法模拟了人类攻击者的思维过程，能够产生高度定制化的攻击提示。复杂度权重为 5。\n\n### 4. Composite：复合攻击（CO × MG）\n\n这是 SafeProbe 最具特色的攻击方式，也是其区别于其他安全评估工具的核心功能。Composite 攻击系统性地测试**竞争目标（Competing Objectives, CO）**与**不匹配泛化（Mismatched Generalization, MG）**技术的所有组合。\n\n**竞争目标（CO）技术包括：**\n- `prefix_injection`：强制模型以肯定前缀开始回答，引导其走向顺从\n- `refusal_suppression`：明确指示模型省略拒绝语言\n- `style_injection`：将请求重构为学术、虚构、专业或教育形式\n- `roleplay`：采用特定角色（如 DAN、研究员、开发者模式）来使顺从行为正常化\n\n**不匹配泛化（MG）技术包括：**\n- `base64`：Base64 编码载荷\n- `rot13`：ROT13 编码\n- `leetspeak`：字符替换（如 a→4, e→3, o→0）\n- `pig_latin`：猪拉丁文转换\n- `translation`：翻译成其他语言\n\nComposite 攻击会测试全部 20 种 CO × MG 组合（4 种 CO × 5 种 MG），并根据攻击成功率（ASR）进行排序，为研究人员提供最有效的攻击组合视图。复杂度权重为 7。\n\n## 评判系统：三种后端与一致性评估\n\nSafeProbe 的另一大亮点是其多评判后端设计。项目实现了三种不同的评判机制，都遵循统一的 BaseJudge 接口：\n\n### 1. 思维链评判（CoT Judge）\n\n基于 DeepSeek R1 或任何支持推理的 API 模型，该评判器不仅给出 0/1 分数，还提供详细的推理过程。这种方法能够区分"模型确实提供了有害信息"和"模型只是讨论了相关话题"的细微差别。\n\n### 2. Llama Guard 3\n\nMeta 开发的安全分类器，基于 HuggingFace 本地运行，能够快速对模型输出进行安全分类。\n\n### 3. HarmBench 分类器\n\n由 CAIS（Center for AI Safety）开发的二元分类器，专门用于检测有害内容。\n\n### 评判者间一致性\n\nSafeProbe 支持并行运行多个评判器，并计算**科恩卡帕系数（Cohen's κ）**和**弗莱斯卡帕系数（Fleiss' κ）**来评估评判者间的一致性。这对于验证评判系统的可靠性至关重要。\n\n## 评估指标与报告\n\nSafeProbe 提供丰富的定量指标：\n\n- **攻击成功率（Attack Success Rate, ASR）**：成功攻击的比例\n- **鲁棒性得分（Robustness Score）**：综合评估模型对各种攻击的抵抗能力\n- **攻击组合排序**：Composite 攻击中各组合的 ASR 排名\n\n评估完成后，系统可以生成 TXT、JSON 或 PDF 格式的报告，其中 PDF 报告包含可视化图表，便于分享和存档。\n\n## 实际应用场景\n\n### 1. 模型发布前安全审计\n\n在将新模型部署到生产环境之前，使用 SafeProbe 进行全面的红队测试，识别潜在的安全漏洞。\n\n### 2. CI/CD 集成\n\n将 SafeProbe 集成到持续集成流程中，每次模型更新后自动运行安全评估，确保新版本不会引入新的安全问题。\n\n### 3. 对抗性训练数据生成\n\n利用 SafeProbe 生成的攻击样本来增强模型的安全训练数据，提升模型的鲁棒性。\n\n### 4. 第三方模型评估\n\n对于使用第三方 API 的应用开发者，可以使用 SafeProbe 评估不同提供商模型的安全表现，作为供应商选择的参考依据。\n\n## 与 NIST 标准的对齐\n\nSafeProbe 的设计遵循**NIST 对抗性机器学习分类法（AI 100-2e2025）**，确保评估方法的科学性和标准化。这对于需要通过合规审计的企业尤为重要。\n\n## 技术架构与扩展性\n\nSafeProbe 采用模块化架构，分为四个主要阶段：**攻击（Attack）→ 整合（Consolidate）→ 评判（Judge）→ 报告（Report）**。\n\n这种设计使得用户可以根据需要：\n- 只运行攻击阶段，快速生成测试数据\n- 使用自定义的评判后端\n- 扩展新的攻击技术\n- 集成到现有的 MLOps 工具链\n\n项目支持通过 YAML/JSON 配置文件进行可复现实验，也提供完整的 Python API 供程序化调用。\n\n## 总结与展望\n\nSafeProbe 代表了 LLM 安全评估领域的一个重要进步。它不仅仅是一个工具，更是一个完整的评估框架，将学术研究中的红队测试方法转化为工程实践中的标准化流程。\n\n对于正在部署大语言模型的团队来说，SafeProbe 提供了一个实用且全面的安全评估解决方案。随着 AI 安全问题的日益复杂，这类自动化评估工具将成为模型开发流程中不可或缺的一环。\n\n项目的开源特性也意味着社区可以持续贡献新的攻击技术和评判方法，使 SafeProbe 能够跟上快速演变的对抗性攻击手段。