# 智能体驱动的安全告警自动化调查：让大语言模型成为虚拟安全分析师

> 本文介绍了一种基于大语言模型的智能体工作流，通过结构化查询和受限工具访问来自动化安全告警的初步调查，显著提升了调查准确性并减轻了安全分析师的手动工作负担。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-28T16:52:12.000Z
- 最近活动: 2026-04-29T03:17:46.074Z
- 热度: 151.6
- 关键词: 安全运营, 智能体工作流, 大语言模型, 告警调查, 自动化安全分析, LLM应用, 网络安全, Suricata, 人机协作
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2604-25846v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2604-25846v1
- Markdown 来源: ingested_event

---

## 背景：安全分析师面临的告警洪水困境

在现代企业安全运营中心（SOC）中，安全分析师每天都要面对海量的安全告警。根据行业统计，一个中型企业每天可能产生数千甚至上万条告警，而分析师能够深入调查的往往只有其中的很小一部分。这种"告警疲劳"不仅导致分析师身心俱疲，更严重的是，真正需要关注的威胁可能被淹没在噪音之中。

传统的安全检测系统往往只提供低上下文的告警信息，比如"检测到可疑IP访问"或"发现恶意文件签名"。要理解这些告警背后的真实意图，分析师需要手动关联多个日志源——防火墙日志、终端检测响应（EDR）数据、网络流量记录、DNS查询日志等。这个过程极其耗时，通常需要数十分钟甚至数小时才能完成一次完整的初步调查。

## 核心洞察：为什么直接应用LLM效果不佳

研究人员首先指出了一个关键问题：直接将大语言模型应用于高容量、非结构化的原始日志数据，效果往往不尽如人意。原因有几个方面：

首先，现代企业产生的日志数据量巨大，动辄数GB甚至TB级别，直接将如此庞大的数据喂给LLM既不现实也不经济。其次，原始日志格式各异，包含大量噪音和冗余信息，LLM很难从中提取出真正有价值的线索。更重要的是，安全调查需要系统性的推理过程，而不是简单的模式匹配。

基于这些观察，研究团队提出了一个核心理念：**将真实分析师的调查实践与结构化方法相结合，让LLM扮演虚拟安全分析师的角色，而不是试图让LLM替代整个调查流程。**

## 技术方案：分层式智能体工作流架构

论文提出的智能体工作流采用了一种分层架构，巧妙地平衡了自动化程度和可控性。整个系统由多个协同工作的组件构成：

### 第一层：数据概览与查询规划

工作流的第一步是让LLM生成一系列预定义的概览查询。这些查询的目的是快速了解可用数据的范围和特征，比如"过去24小时内有哪些IP地址与外部通信"、"哪些端口被频繁访问"等。与传统方法不同的是，系统并不会盲目执行所有查询，而是由LLM根据告警的上下文智能选择最相关的查询子集。

这种选择性查询机制大大减少了数据处理量，同时也让调查更加聚焦。研究人员发现，通过让LLM先"看大局"再"抓细节"，能够显著提升后续调查的准确性。

### 第二层：结构化证据提取

在获得概览结果后，系统进入证据提取阶段。这里的关键设计是**受限工具访问**——LLM只能通过预定义的接口访问数据，而不是直接操作原始日志。具体来说，系统提供了两种主要的查询方式：

- **结构化SQL查询**：针对Suricata等结构化日志，LLM可以生成SQL查询来精确提取特定字段和记录
- **基于grep的文本搜索**：对于非结构化日志，LLM可以构造grep命令进行模式匹配和关键字搜索

这种设计有几个好处：一是保证了查询的安全性，防止LLM执行破坏性操作；二是提高了查询效率，避免处理无关数据；三是让LLM的推理过程更加透明和可解释。

### 第三层：综合研判与最终裁决

最后，LLM将所有收集到的证据进行综合分析，生成对告警的最终裁决。这个裁决不仅包含"是/否"的判断，还包括详细的推理过程和证据链，方便人类分析师审核和追溯。

## 实验验证：准确性显著提升

研究团队设计了一系列实验来验证这个工作流的有效性。实验设置非常贴近真实场景：使用真实的Suricata网络日志，模拟常见的安全告警场景，对比不同方法的调查准确性。

实验结果令人印象深刻：

- **对比基线**：直接使用相同的LLM（不经过工作流）进行告警分析，准确率明显较低。这说明单纯依靠LLM的通用知识是不够的，必须结合结构化的调查流程。

- **工作流优势**：采用完整智能体工作流后，系统在多个测试场景中都表现出显著更高的准确性。特别是在需要多步推理和跨日志关联的复杂场景中，优势更加明显。

- **可解释性**：由于每个裁决都有清晰的证据链和推理过程，人类分析师可以很容易地验证和信任系统的输出。

## 实践启示：人机协作的未来

这项研究给我们带来了几个重要的实践启示：

**第一，LLM不是万能药，但可以是强大的助手。** 安全领域的复杂性决定了完全自动化可能还有很长的路要走，但LLM可以承担大量重复性、机械性的初步调查工作，让人类分析师专注于更需要判断力和创造力的任务。

**第二，结构化方法至关重要。** 与其让LLM直接面对原始数据，不如设计好查询接口和证据提取流程。这不仅能提高准确性，也能让整个系统更加可控和可维护。

**第三，可解释性是信任的基础。** 安全决策往往涉及高风险的判断，必须能够解释"为什么"做出某个裁决。论文中的工作流设计确保了每个结论都有据可查。

## 局限性与未来方向

研究团队也坦诚地指出了当前工作的一些局限。首先，实验主要基于Suricata日志，对于其他类型的日志源（如Windows事件日志、云审计日志等）还需要进一步适配。其次，工作流中的查询模板需要针对不同的调查场景进行设计和维护，这带来了一定的工作量。

未来的研究方向包括：扩展支持更多日志类型和查询接口；探索让LLM自动生成和优化查询模板的可能性；研究如何将这种工作流与现有的安全编排自动化响应（SOAR）平台集成。

## 结语

这项研究展示了一个务实的AI应用范式：不是追求完全替代人类，而是通过结构化的工作流设计，让AI成为人类分析师的得力助手。在安全告警调查这个特定场景中，智能体驱动的自动化方法已经展现出巨大的潜力。随着技术的不断成熟，我们有理由期待，未来的安全运营中心将能够实现更高效、更准确的威胁检测和响应。