# 大语言模型安全漏洞分类学：系统梳理LLM四大核心安全风险

> 一份面向学生和研究者的结构化调研报告，将大语言模型的安全威胁划分为越狱攻击、提示注入、数据投毒和幻觉四大类别，并提供统一的风险分析框架。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-07T21:13:52.000Z
- 最近活动: 2026-06-07T21:28:01.691Z
- 热度: 154.8
- 关键词: 大语言模型安全, 越狱攻击, 提示注入, 数据投毒, 幻觉, AI安全, 漏洞分类, 对抗性攻击, 模型安全, 纵深防御
- 页面链接: https://www.zingnex.cn/forum/thread/llm-ddbaba29
- Canonical: https://www.zingnex.cn/forum/thread/llm-ddbaba29
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者：** ketki1202, Lalitha Sravanti Dast
- **来源平台：** GitHub
- **原始标题：** Security-Taxonomy-of-Large-Language-Model-Vulnerabilities
- **原始链接：** <https://github.com/ketki1202/Security-Taxonomy-of-Large-Language-Model-Vulnerabilities>
- **发布时间：** 2025年秋季（课程项目）
- **最后更新：** 2026年6月7日

---

## 项目概述

随着大语言模型（LLM）在关键业务场景中的广泛应用，其安全性问题日益受到关注。然而，现有的安全研究往往分散在不同领域，缺乏系统性的整合。本项目由 Ketki Kulkarni 和 Lalitha Sravanti Dast 共同完成，旨在将碎片化的研究成果整合为一个统一、学生友好的框架，帮助理解 LLM 的安全风险全貌。

该项目作为一门 LLM 课程的期末项目，从学术视角出发，对当前主流的安全漏洞进行了结构化梳理，为后续研究者和开发者提供了清晰的威胁地图。

---

## 四大核心漏洞类别

项目将 LLM 的安全威胁划分为四大核心类别，每一类别都代表了不同的攻击面和风险特征：

### 1. 越狱攻击（Jailbreaking）

越狱攻击是指在推理阶段通过精心设计的输入绕过模型的安全过滤器。攻击者利用模型对指令和内容的理解弱点，诱导其生成原本被禁止的有害内容。这类攻击通常发生在模型部署后的使用阶段，具有即时性和隐蔽性的特点。

**关键特征：**
- 发生在推理阶段（Inference-time）
- 利用安全过滤器的弱点
- 需要对抗性提示设计

### 2. 提示注入（Prompt Injection）

提示注入攻击是指用户控制的文本被模型误认为是系统指令的一部分。这种攻击利用了 LLM 难以区分可信指令和用户输入的弱点，可能导致模型执行恶意指令或泄露敏感信息。

**关键特征：**
- 混淆可信指令与用户输入的边界
- 可导致未授权操作或信息泄露
- 与 SQL 注入等传统注入攻击有相似逻辑

### 3. 数据投毒（Data Poisoning）

数据投毒是在训练阶段通过操纵训练数据来植入有害行为。与前几类攻击不同，数据投毒具有持久性——一旦恶意数据进入训练集，其影响将贯穿模型的整个生命周期，甚至在模型部署后仍然存在。

**关键特征：**
- 发生在训练阶段（Training-time）
- 产生持久性漏洞
- 难以在部署后检测和修复

### 4. 幻觉（Hallucination）

幻觉是指模型生成看似自信但实际虚假或无根据的输出。与其他三类漏洞不同，幻觉不一定需要对抗性用户触发，而是 LLM 固有的概率生成特性所导致的系统性问题。它直接损害模型的可靠性和可信度。

**关键特征：**
- 无需对抗性用户即可发生
- 源于概率生成机制
- 削弱模型整体可靠性

---

## 统一分析框架

项目提出了一套多维度的比较框架，用于系统性地分析各类漏洞：

### 生命周期阶段（Lifecycle Stage）

区分漏洞发生在训练阶段还是推理阶段。数据投毒属于训练时漏洞，而越狱攻击和提示注入属于推理时漏洞，幻觉则可能贯穿整个生命周期。

### 攻击者意图（Actor Intent）

区分对抗性（Adversarial）与系统性（Systemic）风险。越狱攻击和提示注入通常具有明确的对抗性意图，而幻觉更多是一种系统性缺陷。

### 根本原因（Root Cause）

从四个维度分析漏洞根源：
- **数据完整性问题：** 训练数据被污染
- **指令混淆：** 无法区分系统指令与用户输入
- **安全过滤器弱点：** 防护机制被绕过
- **概率生成特性：** 模型固有的生成不确定性

### 主要影响（Primary Impact）

评估漏洞可能造成的具体危害，如信息泄露、有害内容生成、系统操纵等。

### 缓解策略（Mitigation Strategies）

针对不同漏洞类别，项目提出了相应的防御思路，包括输入过滤、输出验证、对抗训练等。

---

## 核心洞察与要点

项目在分析过程中提炼出以下关键洞察：

### 越狱攻击与提示注入的共同本质

这两类攻击都利用了 LLM 在可信指令与用户输入之间弱分离的弱点。它们本质上都是在混淆模型的指令边界，只是攻击手法和目的有所不同。

### 数据投毒的隐蔽性与持久性

数据投毒可以在模型部署前就植入漏洞，且这些漏洞可能长期潜伏，直到特定触发条件出现才会被激活。这使得数据投毒成为最难防范的攻击类型之一。

### 幻觉的无处不在

幻觉不需要恶意用户就能发生，它是 LLM 概率本质的副产品。这意味着即使在没有外部攻击的情况下，模型也可能产生不可靠的输出，对关键应用场景构成潜在威胁。

### 纵深防御的必要性

项目强调，LLM 安全需要在多个层面实施纵深防御（Defense-in-Depth），包括：
- 数据挖掘与整理阶段的质量控制
- 模型对齐（Alignment）训练
- 输入过滤与验证
- 事实核查与 grounding 机制

---

## 项目产出与学术价值

### 交付物

项目产出了以下成果：
- **期末项目报告：** 系统性的漏洞分析与分类
- **演示文稿：** 用于课堂展示的教学材料
- **分类文献目录：** 整理了相关研究文献

### 学术意义

作为一个课程期末项目，该工作展现了以下学术价值：

**整合性视角：** 将分散在不同论文和报告中的安全研究整合为统一框架，降低了初学者进入 LLM 安全领域的门槛。

**教学友好性：** 结构化的分类和清晰的比较维度，使其成为 LLM 安全课程的教学辅助材料。

**研究启发性：** 提出的多维度分析框架可为后续更深入的实证研究提供理论基础。

---

## 局限与未来方向

### 当前局限

作为课程项目，该工作的主要局限在于：
- 以文献综述为主，缺乏原创性的实验验证
- 分类体系相对简化，可能遗漏一些边缘类别的漏洞
- 未涉及具体的技术实现细节和防御代码

### 未来拓展方向

基于此框架，未来研究可以：
- 针对每一类漏洞开展实证研究，量化其发生概率和影响程度
- 开发自动化的漏洞检测工具和测试基准
- 探索跨类别的复合攻击场景
- 建立 LLM 安全评估的标准化流程

---

## 总结

Security Taxonomy of Large Language Model Vulnerabilities 项目为 LLM 安全研究领域贡献了一份结构化的知识地图。通过将复杂的安全威胁划分为四大类别并提供统一的分析框架，它帮助研究者和开发者更好地理解 LLM 面临的安全挑战。

随着 LLM 在更多关键场景中的部署，这类系统性的安全研究将变得越来越重要。该项目不仅是一份课程作业，更是 LLM 安全领域知识积累和教育传播的有益尝试。