Zing 论坛

正文

大型语言模型在安全运营中心告警分类与优先级排序中的应用:潜力与局限

一项针对GPT-4o、DeepSeek等主流大语言模型在SOC告警处理中表现的实证研究,揭示了AI在威胁检测中的潜力与优先级排序中的挑战。

大语言模型安全运营中心SOC告警分类威胁检测GPT-4oDeepSeek网络安全AI安全告警疲劳
发布时间 2026/05/12 02:52最近活动 2026/05/12 02:59预计阅读 3 分钟
大型语言模型在安全运营中心告警分类与优先级排序中的应用:潜力与局限
1

章节 01

【导读】大型语言模型在SOC告警处理中的潜力与局限研究

本研究针对GPT-4o、DeepSeek等主流大语言模型在安全运营中心(SOC)告警分类与优先级排序任务中的表现展开实证研究。结果显示:LLM在告警分类任务中展现高召回率潜力,但误报率较高;优先级排序任务表现显著不足。研究结论指出,AI应作为SOC分析师的辅助工具,需通过人机协作平衡自动化与人工判断,提升运营效率。

2

章节 02

研究背景与动机:SOC告警疲劳的挑战

研究背景与动机

在数字化转型中,企业面临复杂网络威胁,SOC作为安全神经中枢每天需处理海量告警,大型企业平均日处理数千条,其中多数为误报,导致"告警疲劳",消耗分析师时间且可能遗漏真实威胁。 传统告警分类与优先级排序依赖人工经验,耗时费力且易受主观影响。随着LLM崛起,业界探索将AI引入SOC流程,本研究旨在评估通用LLM在该任务中的实际表现,为安全团队提供参考。

3

章节 03

实验环境与研究方法

实验环境与数据集构建

构建模拟SOC环境,核心组件包括Wazuh(SIEM)、Suricata(IDS)、Windows Server 2019域环境、Windows 11客户端、Linux漏洞应用服务器、Kali Linux攻击机。 采用Atomic Red Team框架+手动攻击触发告警,导出178条JSON格式告警记录:

  • 分类维度:真实告警104条,误报74条
  • 优先级维度:低136条、中12条、高25条、严重5条

研究方法与技术路线

分四阶段:

  1. 预处理:脚本清洗标注数据,合并真实/误报为统一数据集
  2. 模型推理:测试7款主流模型(GPT-4o系列、DeepSeek-Chat/Reasoner),完成分类(真实/误报)与优先级排序任务
  3. 后处理:标准化模型结果
  4. 评估:用准确率、精确率、召回率等指标分析

测试模型列表:

模型名称 版本/快照
GPT-4o gpt-4o-2024-08-06
GPT-4.1 gpt-4.1-2025-04-14
GPT-4.5 Preview gpt-4.5-preview-2025-02-27
GPT-4o mini gpt-4o-mini-2024-07-18
GPT-4.1 mini gpt-4.1-mini-2024-04-14
DeepSeek-Chat DeepSeek-V3-0324
DeepSeek-Reasoner DeepSeek-R1-0528
4

章节 04

核心发现:分类有潜力,优先级排序待提升

告警分类:AI展现强劲潜力

各模型在区分真实/误报告警中表现良好:

  • 最佳表现:GPT-4o mini召回率95.19%(漏报率低)
  • 挑战:GPT-4o mini误报率72.97%,仍可能导致告警疲劳
  • 权衡:安全场景漏报代价高于误报,高召回合理,但需平衡误报率

优先级排序:当前模型的明显短板

所有模型表现不佳:

  • 最佳表现:GPT-4.1宏平均召回率34.59%,准确率49.44%(略超随机猜测)
  • 原因:需组织特定上下文、优先级划分主观、数据分布不均衡(低优先级占76%)
  • 启示:AI优先级建议需人工确认,人机协作更可靠
5

章节 05

实践启示与应用建议

对SOC运营的启示

分层应用策略:

  1. 告警预筛选:用AI高召回特性过滤明显误报,减少人工审查量
  2. 真实威胁确认:AI标记高置信度真实告警快速响应,边界案例人工复核
  3. 优先级辅助:AI输出作为参考,结合规则与人工判断

技术实施建议

  1. 从小规模试点开始,逐步扩展
  2. 建立反馈闭环,用分析师判断优化模型
  3. 关注成本效益,选择性价比最优模型
  4. 保持人工监督,AI定位为助手而非替代者
6

章节 06

研究局限与未来方向

研究局限

  1. 实验环境为模拟,与实际生产环境可能存在差异
  2. 数据集规模较小(178条),覆盖安全事件类型有限

未来方向

  1. 扩展更大规模、多样化的告警数据集
  2. 探索安全领域微调后的模型表现
  3. 结合日志、网络流量等多源数据的多模态融合
  4. 研究模型在流式告警处理场景下的实时表现