# ResHGNN：基于稀疏残差异构图神经网络的内网威胁检测方案

> 一种将用户日常活动建模为异构图的深度学习框架，通过残差学习保留原始行为特征，同时捕获组织关系中的异常信号，用于高效检测内部人员威胁。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-13T05:42:24.000Z
- 最近活动: 2026-06-13T05:53:04.381Z
- 热度: 159.8
- 关键词: 图神经网络, 内部威胁检测, 异构图, 残差学习, 网络安全, 机器学习, 深度学习, GNN
- 页面链接: https://www.zingnex.cn/forum/thread/reshgnn
- Canonical: https://www.zingnex.cn/forum/thread/reshgnn
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Wayne-on-the-road
- 来源平台：github
- 原始标题：InsiderDetection_HGNN
- 原始链接：https://github.com/Wayne-on-the-road/InsiderDetection_HGNN
- 来源发布时间/更新时间：2026-06-13T05:42:24Z

# ResHGNN：基于稀疏残差异构图神经网络的内网威胁检测方案\n\n## 原作者与来源\n\n- **原作者/维护者**: Wayne-on-the-road\n- **来源平台**: GitHub\n- **原始标题**: InsiderDetection_HGNN / ResHGNN: Sparse Residual Heterogeneous Graph Neural Networks for Efficient Insider Threat Detection\n- **原始链接**: https://github.com/Wayne-on-the-road/InsiderDetection_HGNN\n- **发布时间**: 2026年6月\n\n## 研究背景与问题定义\n\n在网络安全领域，内部威胁（Insider Threat）一直是最棘手的问题之一。与外部攻击者不同，内部人员已经拥有系统的合法访问权限，他们的恶意行为往往隐藏在正常的日常工作活动之中。这种威胁具有三大特征：**稀有性**（恶意行为在整体活动中占比极低）、**隐蔽性**（与合法行为高度相似）、**复杂性**（涉及多维度的组织和行为关系）。\n\n传统的安全检测方法，如基于规则的审计系统或简单的异常检测算法，往往难以应对这些挑战。它们要么产生大量误报，让安全团队疲于应付；要么漏检精心伪装的恶意行为。因此，学术界和工业界都在探索更智能、更精准的检测方案。\n\nResHGNN 正是在这一背景下提出的一种新型解决方案，它将内部威胁检测重新定义为**异构图学习问题**，充分利用了组织结构和用户行为之间的复杂关系。\n\n## 核心方法论\n\n### 异构图建模\n\nResHGNN 的创新之处在于它将用户活动数据建模为异构图（Heterogeneous Graph），而非传统的特征向量或序列数据。在这个图中：\n\n- **UserDay 节点**：代表每个用户每天的活跃记录，是检测的目标实体\n- **Supervisor 节点**：代表监督实体，捕获组织层级关系\n- **User 节点**：代表用户身份，建立同一用户不同日期活动之间的关联\n- **边关系**：包括 UserDay 到 Supervisor 的监督关系边，以及 UserDay 到 User 的身份关系边\n\n这种建模方式的优势在于，它同时捕获了**时间维度**（用户在不同日期的行为模式）和**组织维度**（用户在组织结构中的位置及其与其他实体的关系），为检测算法提供了更丰富的上下文信息。\n\n### 残差学习机制\n\nResHGNN 名称中的"Res"代表 Residual（残差），这是从 ResNet 等深度学习架构中借鉴的核心思想。在图神经网络的消息传递过程中，原始的用户-日期行为表征可能会在多层传播中被稀释或扭曲。\n\n残差学习机制通过引入跳跃连接（Skip Connection），允许模型在利用图结构信息的同时，保留对原始行为特征的访问。具体来说：\n\n- 每一层的输出不仅依赖于图卷积的结果，还直接融合了输入表征\n- 这种设计使得模型可以学习"需要添加什么信息"，而非"需要变成什么"\n- 有效缓解了深层图神经网络常见的过度平滑（Over-smoothing）问题\n\n### 稀疏性设计\n\n内部威胁检测面临的一个实际挑战是数据的不平衡性：正常行为占绝大多数，恶意行为极为罕见。ResHGNN 的"稀疏"特性体现在多个层面：\n\n- **图结构的稀疏性**：并非所有用户之间都存在直接连接，关系边是有选择地构建\n- **消息传递的稀疏性**：在图卷积中，模型学习关注最重要的邻居节点\n- **预测的稀疏性**：最终输出针对的是少数可疑节点，而非对所有节点进行密集分类\n\n## 技术实现细节\n\n### 支持的 GNN 骨干网络\n\nResHGNN 框架具有良好的灵活性，支持多种主流的图神经网络架构作为底层实现：\n\n1. **GCN（图卷积网络）**：基于谱图理论的卷积操作，适合捕获局部结构模式\n2. **GAT（图注意力网络）**：引入注意力机制，为不同邻居分配不同权重\n3. **GraphSAGE**：归纳式学习框架，能够处理未见过的节点\n\n这种模块化设计使得研究人员可以方便地比较不同骨干网络的性能，并针对具体场景选择最优配置。\n\n### 多关系配置\n\n项目支持三种关系设置，用于消融实验和性能分析：\n\n- **All_relation**：同时使用监督关系和身份关系\n- **Supervision_relation**：仅使用监督关系\n- **SameUser_relation**：仅使用身份关系\n\n通过对比这些配置的表现，可以量化不同类型组织关系对检测性能的贡献。\n\n### K折交叉验证与早停\n\n为了确保结果的可靠性，ResHGNN 实现了 K 折交叉验证机制。数据被分成 K 个子集，每次使用 K-1 个子集训练，剩余一个子集测试，最后取平均结果。\n\n早停（Early Stopping）策略则用于防止过拟合：当验证集上的损失连续多轮不再下降时，训练自动终止，并恢复最佳模型参数。\n\n## 实验设计与评估指标\n\n### 数据集\n\n项目使用了经过处理的内部威胁活动记录样本数据，组织在用户-日期粒度上，包含：\n\n- 行为特征（从原始日志中提取的统计指标）\n- 标签（是否为恶意行为）\n- 用户标识符\n- 日期索引\n- 组织信息（用于构建异构图关系）\n\n需要注意的是，原始的企业活动日志出于隐私考虑并未包含在仓库中，提供的样本数据足以复现图构建和检测流程。\n\n### 评估指标\n\nResHGNN 报告以下标准分类指标：\n\n- **准确率（Accuracy）**：正确预测的比例\n- **精确率（Precision）**：预测为恶意中真正恶意的比例\n- **召回率（Recall）**：真实恶意中被正确检测出的比例\n- **F1 分数**：精确率和召回率的调和平均\n- **AUC（曲线下面积）**：ROC 曲线下的面积，衡量模型区分能力\n\n在不平衡数据集上，精确率和召回率往往存在权衡，F1 分数和 AUC 提供了更全面的性能视角。\n\n## 代码结构与使用指南\n\n### 仓库结构\n\n```\n.\n├── data/                          # 数据目录\n│   ├── data-total.csv            # 处理后的用户-日期活动记录\n│   ├── userlist.csv              # 用户信息（用于构建组织关系）\n│   └── insider_detection_heterogeneous_graph.pt  # 保存的异构图对象\n├── 1_graph_construction.py       # 图构建脚本\n├── 2_No_sequence_detection_EndToEnd_k_fold.py  # 主检测实验\n├── 3_No_sequence_process_perform_file.py       # 结果汇总\n├── No_sequence_models_EndToEnd_K_fold.py       # 模型定义\n├── tool_EndToEnd_KFolds.py       # 评估工具函数\n└── early_stop_v1.py              # 早停实现\n```\n\n### 快速开始\n\n**第一步：安装依赖**\n\n```bash\npip install numpy pandas scikit-learn matplotlib torch torch-geometric\n```\n\n注意需要根据 CUDA 和操作系统配置选择匹配的 PyTorch 和 PyTorch Geometric 版本。\n\n**第二步：构建异构图**\n\n```bash\npython 1_graph_construction.py\n```\n\n此脚本会读取 `data-total.csv` 和 `userlist.csv`，构建异构图并保存为 `insider_detection_heterogeneous_graph.pt`。\n\n**第三步：运行检测实验**\n\n```bash\npython 2_No_sequence_detection_EndToEnd_k_fold.py\n```\n\n脚本会自动测试不同的关系设置和 GNN 骨干网络组合，使用 K 折交叉验证和早停策略，最后保存性能结果。\n\n**第四步：汇总实验结果**\n\n```bash\npython 3_No_sequence_process_perform_file.py\n```\n\n将分散的实验结果整理成结构化的 CSV 文件，便于对比分析。\n\n## 研究意义与应用前景\n\n### 学术贡献\n\nResHGNN 为内部威胁检测领域提供了一个新的技术范式：\n\n1. **异构图视角**：首次系统地将组织关系和行为关系整合到统一的图学习框架中\n2. **残差学习在图域的应用**：将计算机视觉领域的成功经验迁移到图神经网络\n3. **可复现的研究平台**：开源代码和数据处理流程为后续研究提供了基准\n\n### 实际应用价值\n\n对于企业安全团队，ResHGNN 代表了一种更智能的审计分析工具：\n\n- **降低误报率**：通过关系上下文减少孤立事件的误判\n- **提高检测率**：捕获传统方法难以识别的隐蔽威胁\n- **可解释性**：图结构提供了检测结果的可视化和追溯能力\n\n### 未来研究方向\n\n项目文档中暗示了若干可能的扩展方向：\n\n- **序列建模**：当前版本未显式建模行为的时间序列特征，可以引入时序图神经网络\n- **动态图**：组织结构和用户关系可能随时间变化，动态图学习值得探索\n- **多模态融合**：整合日志数据、网络流量、邮件通信等多种数据源\n- **联邦学习**：在保护隐私的前提下跨组织协作训练检测模型\n\n## 结语\n\nResHGNN 代表了图神经网络在网络安全领域的一次成功应用。它展示了如何将复杂的组织行为数据转化为结构化的图表示，如何利用深度学习自动学习异常模式，以及如何通过残差学习等技术手段提升模型性能。\n\n对于从事网络安全、图机器学习、或企业风控的研究者和工程师来说，这个项目提供了一个完整的技术栈和实验框架，可以作为进一步研究和开发的基础。