章节 01
【导读】大型语言模型在SOC告警处理中的潜力与局限研究
本研究针对GPT-4o、DeepSeek等主流大语言模型在安全运营中心(SOC)告警分类与优先级排序任务中的表现展开实证研究。结果显示:LLM在告警分类任务中展现高召回率潜力,但误报率较高;优先级排序任务表现显著不足。研究结论指出,AI应作为SOC分析师的辅助工具,需通过人机协作平衡自动化与人工判断,提升运营效率。
正文
一项针对GPT-4o、DeepSeek等主流大语言模型在SOC告警处理中表现的实证研究,揭示了AI在威胁检测中的潜力与优先级排序中的挑战。
章节 01
本研究针对GPT-4o、DeepSeek等主流大语言模型在安全运营中心(SOC)告警分类与优先级排序任务中的表现展开实证研究。结果显示:LLM在告警分类任务中展现高召回率潜力,但误报率较高;优先级排序任务表现显著不足。研究结论指出,AI应作为SOC分析师的辅助工具,需通过人机协作平衡自动化与人工判断,提升运营效率。
章节 02
在数字化转型中,企业面临复杂网络威胁,SOC作为安全神经中枢每天需处理海量告警,大型企业平均日处理数千条,其中多数为误报,导致"告警疲劳",消耗分析师时间且可能遗漏真实威胁。 传统告警分类与优先级排序依赖人工经验,耗时费力且易受主观影响。随着LLM崛起,业界探索将AI引入SOC流程,本研究旨在评估通用LLM在该任务中的实际表现,为安全团队提供参考。
章节 03
构建模拟SOC环境,核心组件包括Wazuh(SIEM)、Suricata(IDS)、Windows Server 2019域环境、Windows 11客户端、Linux漏洞应用服务器、Kali Linux攻击机。 采用Atomic Red Team框架+手动攻击触发告警,导出178条JSON格式告警记录:
分四阶段:
测试模型列表:
| 模型名称 | 版本/快照 |
|---|---|
| GPT-4o | gpt-4o-2024-08-06 |
| GPT-4.1 | gpt-4.1-2025-04-14 |
| GPT-4.5 Preview | gpt-4.5-preview-2025-02-27 |
| GPT-4o mini | gpt-4o-mini-2024-07-18 |
| GPT-4.1 mini | gpt-4.1-mini-2024-04-14 |
| DeepSeek-Chat | DeepSeek-V3-0324 |
| DeepSeek-Reasoner | DeepSeek-R1-0528 |
章节 04
各模型在区分真实/误报告警中表现良好:
所有模型表现不佳:
章节 05
分层应用策略:
章节 06