# 大型语言模型在安全运营中心告警分类与优先级排序中的应用：潜力与局限

> 一项针对GPT-4o、DeepSeek等主流大语言模型在SOC告警处理中表现的实证研究，揭示了AI在威胁检测中的潜力与优先级排序中的挑战。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-11T18:52:05.000Z
- 最近活动: 2026-05-11T18:59:07.185Z
- 热度: 145.9
- 关键词: 大语言模型, 安全运营中心, SOC, 告警分类, 威胁检测, GPT-4o, DeepSeek, 网络安全, AI安全, 告警疲劳
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-c0deing-llm-soc-alert-triage
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-c0deing-llm-soc-alert-triage
- Markdown 来源: ingested_event

---

# 大型语言模型在安全运营中心告警分类与优先级排序中的应用：潜力与局限\n\n## 研究背景与动机\n\n在当今数字化转型的浪潮中，企业面临的网络安全威胁日益复杂多变。安全运营中心（Security Operations Center，简称SOC）作为组织网络安全的"神经中枢"，每天需要处理海量的安全告警。据统计，大型企业的SOC团队平均每天需要处理数千条告警，其中绝大部分是误报。这种"告警疲劳"不仅消耗了安全分析师大量宝贵时间，更可能导致真正的威胁被淹没在噪音之中。\n\n传统上，告警分类和优先级排序高度依赖人工经验，分析师需要逐条阅读告警内容，判断其真实性，并评估风险等级。这一过程不仅耗时费力，而且容易受到主观因素的影响。随着人工智能技术的快速发展，特别是大语言模型（Large Language Models，LLMs）的崛起，业界开始探索将AI技术引入SOC工作流程，以提升告警处理的效率和准确性。\n\n本研究正是在这一背景下展开，旨在系统性地评估通用大语言模型在SOC告警分类与优先级排序任务中的实际表现，为安全团队提供客观的参考依据。\n\n## 实验环境与数据集构建\n\n为了确保研究结果的真实性和可复现性，研究团队构建了一个完整的模拟SOC环境。该实验环境包含以下核心组件：\n\n- **Wazuh**：开源安全信息与事件管理（SIEM）平台，负责集中收集和展示告警\n- **Suricata**：高性能网络入侵检测系统（IDS），与Wazuh集成提供网络层威胁检测\n- **Windows Server 2019**：部署Active Directory域服务，模拟企业级Windows环境\n- **Windows 11 Pro**：加入域的客户端工作站\n- **Linux服务器**：运行DVWA（Damn Vulnerable Web Application）和Mutillidae等故意设计有漏洞的应用程序\n- **Kali Linux**：用于执行各种渗透测试和攻击操作\n\n在数据采集阶段，研究团队主要采用Atomic Red Team框架的技术来触发告警，同时辅以Kali Linux机器的手动攻击。这种混合方法确保了告警数据的多样性和真实性。最终，研究团队从Wazuh系统导出了178条告警记录，以JSON格式保存供后续分析使用。\n\n数据集构成如下：\n\n**分类维度**：\n- 真实告警（True Positives）：104条\n- 误报告警（False Positives）：74条\n\n**优先级维度**：\n- 低优先级：136条\n- 中优先级：12条\n- 高优先级：25条\n- 严重级别：5条\n\n## 研究方法与技术路线\n\n整个研究遵循严谨的实验科学方法，分为数据预处理、模型推理、结果后处理和评估分析四个阶段。\n\n### 数据预处理阶段\n\n原始告警数据以JSONL格式存储，研究团队开发了专门的预处理脚本（`1_alert_preprocessing.py`）对数据进行清洗和标注。预处理过程包括字段标准化、格式转换和标签添加等步骤。真实告警和误报告警分别存储在独立的文件中，经过预处理后再通过随机合并脚本（`2_alert_random_merging.py`）整合为统一的数据集。\n\n### 模型推理阶段\n\n研究选取了当前主流的多款大语言模型进行评估，包括OpenAI的GPT系列和DeepSeek的模型：\n\n| 模型名称 | 版本/快照 |\n|---------|----------|\n| GPT-4o | gpt-4o-2024-08-06 |\n| GPT-4.1 | gpt-4.1-2025-04-14 |\n| GPT-4.5 Preview | gpt-4.5-preview-2025-02-27 |\n| GPT-4o mini | gpt-4o-mini-2024-07-18 |\n| GPT-4.1 mini | gpt-4.1-mini-2024-04-14 |\n| DeepSeek-Chat | DeepSeek-V3-0324 |\n| DeepSeek-Reasoner | DeepSeek-R1-0528 |\n\n对于每条告警，研究团队将其以JSON格式提交给模型，要求模型完成两项任务：一是判断该告警是否为真实威胁（分类任务），二是评估其优先级等级（排序任务）。OpenAI模型使用官方Python SDK调用，DeepSeek模型则使用专门的适配脚本。\n\n### 结果后处理与评估\n\n模型返回的结果经过后处理脚本（`4_alert_postprocessing.py`）进行格式标准化，然后使用评估脚本（`5_result_evaluation.py`）计算各项指标。研究团队采用了机器学习领域标准的评估指标，包括准确率、精确率、召回率、F1分数以及混淆矩阵等。\n\n## 核心研究发现\n\n### 告警分类：AI展现强劲潜力\n\n在告警分类任务上，大语言模型表现出了令人惊喜的能力。实验结果显示，各模型在区分真实告警和误报告警方面均有不错的表现。\n\n**最佳表现**：GPT-4o mini在召回率指标上表现最优，达到了95.19%，意味着它能够识别出绝大多数的真实威胁。这一结果对于SOC运营具有重要意义——高召回率意味着漏报率低，真正的安全事件不太可能被忽视。\n\n**误报挑战**：然而，研究也发现了一个值得注意的问题：GPT-4o mini的误报率达到了72.97%。这意味着虽然模型能够捕捉到大部分真实威胁，但同时也会将大量正常行为误判为可疑活动。在实际应用中，这可能导致分析师仍需处理大量误报，未能完全解决告警疲劳问题。\n\n这一发现揭示了一个在AI安全应用中常见的权衡：召回率与精确率之间的平衡。对于安全场景而言，漏报（未检测到真实威胁）的代价通常远高于误报（误将正常行为标记为可疑），因此高召回率的设计取向是合理的。但如何在保持高召回的同时降低误报率，仍是未来研究需要攻克的难题。\n\n### 优先级排序：当前模型的明显短板\n\n与分类任务形成鲜明对比的是，所有测试模型在告警优先级排序任务上的表现都不尽如人意。\n\n**最佳表现**：即使是表现最好的GPT-4.1模型，其宏平均召回率（Macro Recall）也仅为34.59%，准确率仅为49.44%。这意味着模型的判断正确率 barely 超过随机猜测。\n\n**问题分析**：优先级排序的困难可能源于几个因素。首先，优先级判断往往需要结合组织特定的上下文信息，如资产价值、业务影响、漏洞严重程度等，而这些信息在原始告警中并不总是明确存在。其次，优先级等级的划分本身具有一定的主观性，不同组织可能有不同的标准。此外，训练数据中各优先级类别的分布不均衡（低优先级告警占76%，而严重级别仅占2.8%）也可能导致模型偏向于预测多数类。\n\n这一发现对SOC运营具有重要启示：在当前技术条件下，完全依赖AI进行告警优先级判断可能存在风险。安全团队可能需要采用人机协作的模式，由AI提供初步建议，最终优先级由人类分析师确认。\n\n## 实践意义与应用建议\n\n### 对SOC运营的启示\n\n本研究的结果为SOC团队引入AI技术提供了务实的参考。基于研究发现，可以提出以下分层应用策略：\n\n**第一层：告警预筛选**\n利用AI的高召回率特性，对所有进入SOC的告警进行初步筛选。AI可以识别出明显是误报的告警（如低置信度的匹配），将其自动关闭或降低优先级，从而显著减少分析师需要人工审查的告警数量。\n\n**第二层：真实威胁确认**\n对于AI标记为高置信度的真实告警，可以快速进入响应流程。但对于边界案例，仍需要人工复核。\n\n**第三层：优先级辅助**\n虽然AI在优先级排序上的表现不佳，但仍可将其输出作为参考信息之一，结合其他自动化规则和人工判断综合决定最终优先级。\n\n### 技术实施建议\n\n对于希望在SOC中引入大语言模型的组织，研究团队建议：\n\n1. **从小规模试点开始**：选择特定类型的告警或特定时间段进行试点，积累经验后再逐步扩展\n2. **建立反馈闭环**：将分析师的判断反馈给模型，持续优化模型表现\n3. **关注成本效益**：研究评估了不同模型的运行时间和成本，建议根据实际需求选择性价比最优的模型\n4. **保持人工监督**：在可预见的未来，AI应定位为分析师的助手而非替代者\n\n## 研究局限与未来方向\n\n本研究虽然设计严谨，但仍存在一些局限性。首先，实验环境是模拟的，虽然尽可能贴近真实企业环境，但仍可能与实际生产环境存在差异。其次，数据集规模相对较小（178条告警），可能不足以覆盖所有类型的安全事件。\n\n未来研究可以在以下方向深入：\n\n- **扩展数据集**：收集更大规模、更多样化的告警数据\n- **微调模型**：探索针对安全领域专门微调后的模型表现\n- **多模态融合**：结合日志、网络流量、终端行为等多源数据\n- **实时处理**：研究模型在流式告警处理场景下的表现\n\n## 结语\n\n大语言模型在安全运营领域的应用正处于快速发展阶段。本研究通过严谨的实验设计，客观评估了当前主流模型在SOC告警处理任务中的能力边界。研究结果表明，AI在告警分类任务上已展现出实用价值，但在优先级排序方面仍有较大提升空间。\n\n对于安全从业者而言，这一研究提供了宝贵的实证依据。AI不是万能的，但在合适的场景下，它可以成为提升SOC运营效率的有力工具。关键在于理解AI的能力边界，在自动化与人工判断之间找到最佳平衡点。随着技术的不断进步，我们有理由期待AI在网络安全领域发挥越来越重要的作用。