正文

大型语言模型在安全运营中心告警分类与优先级排序中的应用：潜力与局限

一项针对GPT-4o、DeepSeek等主流大语言模型在SOC告警处理中表现的实证研究，揭示了AI在威胁检测中的潜力与优先级排序中的挑战。

大语言模型安全运营中心SOC告警分类威胁检测GPT-4oDeepSeek网络安全AI安全告警疲劳

发布时间 2026/05/12 02:52最近活动 2026/05/12 02:59预计阅读 3 分钟

章节 01

【导读】大型语言模型在SOC告警处理中的潜力与局限研究

本研究针对GPT-4o、DeepSeek等主流大语言模型在安全运营中心（SOC）告警分类与优先级排序任务中的表现展开实证研究。结果显示：LLM在告警分类任务中展现高召回率潜力，但误报率较高；优先级排序任务表现显著不足。研究结论指出，AI应作为SOC分析师的辅助工具，需通过人机协作平衡自动化与人工判断，提升运营效率。

章节 02

研究背景与动机：SOC告警疲劳的挑战

研究背景与动机

在数字化转型中，企业面临复杂网络威胁，SOC作为安全神经中枢每天需处理海量告警，大型企业平均日处理数千条，其中多数为误报，导致"告警疲劳"，消耗分析师时间且可能遗漏真实威胁。传统告警分类与优先级排序依赖人工经验，耗时费力且易受主观影响。随着LLM崛起，业界探索将AI引入SOC流程，本研究旨在评估通用LLM在该任务中的实际表现，为安全团队提供参考。

章节 03

实验环境与研究方法

实验环境与数据集构建

构建模拟SOC环境，核心组件包括Wazuh（SIEM）、Suricata（IDS）、Windows Server 2019域环境、Windows 11客户端、Linux漏洞应用服务器、Kali Linux攻击机。采用Atomic Red Team框架+手动攻击触发告警，导出178条JSON格式告警记录：

分类维度：真实告警104条，误报74条
优先级维度：低136条、中12条、高25条、严重5条

研究方法与技术路线

分四阶段：

预处理：脚本清洗标注数据，合并真实/误报为统一数据集
模型推理：测试7款主流模型（GPT-4o系列、DeepSeek-Chat/Reasoner），完成分类（真实/误报）与优先级排序任务
后处理：标准化模型结果
评估：用准确率、精确率、召回率等指标分析

测试模型列表：

模型名称	版本/快照
GPT-4o	gpt-4o-2024-08-06
GPT-4.1	gpt-4.1-2025-04-14
GPT-4.5 Preview	gpt-4.5-preview-2025-02-27
GPT-4o mini	gpt-4o-mini-2024-07-18
GPT-4.1 mini	gpt-4.1-mini-2024-04-14
DeepSeek-Chat	DeepSeek-V3-0324
DeepSeek-Reasoner	DeepSeek-R1-0528

章节 04

核心发现：分类有潜力，优先级排序待提升

告警分类：AI展现强劲潜力

各模型在区分真实/误报告警中表现良好：

最佳表现：GPT-4o mini召回率95.19%（漏报率低）
挑战：GPT-4o mini误报率72.97%，仍可能导致告警疲劳
权衡：安全场景漏报代价高于误报，高召回合理，但需平衡误报率

优先级排序：当前模型的明显短板

所有模型表现不佳：

最佳表现：GPT-4.1宏平均召回率34.59%，准确率49.44%（略超随机猜测）
原因：需组织特定上下文、优先级划分主观、数据分布不均衡（低优先级占76%）
启示：AI优先级建议需人工确认，人机协作更可靠

章节 05

实践启示与应用建议

对SOC运营的启示

分层应用策略：

告警预筛选：用AI高召回特性过滤明显误报，减少人工审查量
真实威胁确认：AI标记高置信度真实告警快速响应，边界案例人工复核
优先级辅助：AI输出作为参考，结合规则与人工判断

技术实施建议

从小规模试点开始，逐步扩展
建立反馈闭环，用分析师判断优化模型
关注成本效益，选择性价比最优模型
保持人工监督，AI定位为助手而非替代者

章节 06

研究局限与未来方向

研究局限

实验环境为模拟，与实际生产环境可能存在差异
数据集规模较小（178条），覆盖安全事件类型有限

未来方向

扩展更大规模、多样化的告警数据集
探索安全领域微调后的模型表现
结合日志、网络流量等多源数据的多模态融合
研究模型在流式告警处理场景下的实时表现