# 基于图神经网络的异常交易检测：GraphSAGE与GAT混合架构在金融风控中的应用

> 本文介绍了一个利用混合图神经网络架构检测可疑内幕交易的开源项目，详细解析其数据 pipeline、模型架构设计、特征工程方法以及实际应用价值。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-01T05:42:06.000Z
- 最近活动: 2026-06-01T05:49:39.091Z
- 热度: 159.9
- 关键词: 图神经网络, 内幕交易检测, GraphSAGE, GAT, 金融风控, 深度学习, SEC EDGAR, 异常检测
- 页面链接: https://www.zingnex.cn/forum/thread/graphsagegat
- Canonical: https://www.zingnex.cn/forum/thread/graphsagegat
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: shethsamyak
- **来源平台**: GitHub
- **原始标题**: insider-trading-detection-gnn
- **原始链接**: https://github.com/shethsamyak/insider-trading-detection-gnn
- **发布时间**: 2026年6月1日

---

## 项目背景与动机

金融市场的公平性一直是监管机构关注的核心议题。内幕交易作为一种严重的市场操纵行为，不仅损害普通投资者的利益，也破坏了市场的信任基础。传统的内幕交易检测方法主要依赖于规则引擎和统计阈值，这些方法往往难以捕捉复杂的关联模式和时序特征。

近年来，图神经网络（Graph Neural Network, GNN）在金融风控领域展现出巨大潜力。通过将交易数据建模为图结构，可以自然地捕捉实体之间的关系：同一内部人员的多笔交易、同一公司的相关交易、以及同行业公司的关联交易。本项目正是基于这一思路，构建了一个生产级的深度学习检测系统。

---

## 核心架构设计

### 混合神经网络架构

项目采用了 GraphSAGE 与 Graph Attention Network（GAT）的混合架构，兼顾了归纳式学习和注意力机制的优势：

```
输入节点特征（35+维度）
    │
    ▼
┌─────────────┐
│  SAGEConv   │ ← 归纳式邻域聚合
│    + BN     │
└──────┬──────┘
       │ (ELU激活 + Dropout)
       ▼
┌─────────────┐
│   GATConv   │ ← 多头自注意力（4头）
│    + BN     │
└──────┬──────┘
       │ (ELU激活 + Dropout)
       ▼
┌─────────────┐
│  SAGEConv   │
└──────┬──────┘
       │ (ELU激活)
       ▼
┌─────────────┐
│   GATConv   │ ← 最终卷积层
└──────┬──────┘
       ▼
┌─────────────┐
│  MLP (2层)  │ ← 多层感知机分类器
└──────┬──────┘
       ▼
  [正常 / 可疑]
```

这种架构设计的巧妙之处在于：GraphSAGE 层负责聚合邻域信息，学习节点的局部结构特征；GAT 层则通过多头注意力机制，动态地为不同邻居分配权重，捕捉更细粒度的关系重要性。两者的交替堆叠形成了深度特征提取能力。

---

## 图结构构建与边类型

项目构建了一个异构图网络，包含四种边类型：

**时序边（Temporal Edges）**
连接同一内部人员随时间执行的交易。这种边捕捉了个人交易行为的演变模式，例如某位高管是否在短时间内频繁买卖本公司股票。

**关系边（Relational Edges）**
连接与同一目标公司相关的交易。通过这类边，模型可以学习公司层面的交易模式，识别异常的公司内部交易集中现象。

**同业边（Peer Edges）**
连接相同标准行业分类（SIC）代码的公司交易。这类边引入了行业上下文，使得模型能够区分行业普遍行为和异常行为。

这种多关系图结构的设计体现了金融领域的专业知识：内幕交易往往不仅涉及单一交易，而是在时间、公司、行业等多个维度上呈现出异常模式。

---

## 特征工程详解

项目构建了超过35维的节点特征，涵盖交易属性、内部人员画像、技术指标三个层面：

### 交易属性特征
- `log_tx_value`: 交易金额的对数变换（美元）
- `log_shares`: 交易股数的对数变换
- `transaction_code_enc`: 交易类型编码（购买、出售、赠与等）
- `acquired_disposed_enc`: 交易方向编码（增持 vs 减持）
- `days_to_file`: 交易执行与SEC披露的时间差
- `ownership_pct_change`: 内部人员总持股的比例变化
- `is_quarter_end`: 是否发生在季度末附近

### 内部人员画像特征
- `insider_tx_count`: 该内部人员的总交易频次
- `insider_total_val`: 该内部人员的累计交易净值
- `insider_sell_ratio`: 历史卖出交易占比
- `officer_title_enc`: 职位等级编码（CEO、CFO、董事等）

### 技术指标特征
- `pre_ret_5d`: 交易前5个交易日的累计收益
- `pre_vol_20d`: 20日历史波动率
- `pre_rsi_14`: 14日相对强弱指数
- `pre_ma_ratio`: 短期与长期均线比率（MA5/MA20）
- `post_ret_20d`: 未来20日收益（用于生成标签）

### 图结构特征
- `graph_degree`: 节点的连接数
- `graph_clustering`: 局部聚类系数，衡量交易密度

这些特征的设计充分考虑了金融领域的先验知识。例如，季度末附近的交易、内部人员的卖出比例、以及交易后的股价走势，都是识别可疑交易的重要信号。

---

## 数据 Pipeline

项目实现了自动化的数据获取流程：

**SEC EDGAR API 集成**
系统自动查询美国证券交易委员会的公开 EDGAR 系统，下载 Form 4 内部交易披露文件。Form 4 是内部人员和受益所有人必须在交易后两个工作日内提交的表格，是内幕交易检测的关键数据源。

**Yahoo Finance API 集成**
系统同时获取 OHLCV（开盘价、最高价、最低价、收盘价、成交量）历史价格数据，并计算各类技术指标。这种多源数据融合确保了特征的全面性。

**网络构建**
基于获取的数据，系统自动构建异构交易网络，建立前述的四种边类型。当网络构建完成后，即可输入 GNN 模型进行训练和推理。

值得注意的是，系统在无网络连接时会优雅地回退到合成测试数据集，这为开发和测试提供了便利。

---

## 模型性能与评估

项目在真实数据集上取得了优异的性能表现：

| 指标 | 得分 |
|------|------|
| ROC-AUC | 0.95 |
| PR-AUC | 0.08 |
| 准确率 | 0.98 |

其中 PR-AUC 相对较低是由于类别极度不平衡（可疑交易仅占约1%），这在金融欺诈检测场景中是常见现象。ROC-AUC 达到0.95 表明模型具有出色的区分能力。

项目还提供了完整的评估可视化，包括 EDA 概览、相关性热力图、波动率分析图、以及模型评估曲线，帮助用户深入理解模型行为和预测结果。

---

## 实际应用价值与展望

该项目的实际应用价值体现在多个层面：

**监管合规**
金融机构可以利用此类系统辅助合规审查，自动标记需要人工复核的高风险交易，大幅提升审查效率。

**风险管理**
投资机构和交易所可以实时监控交易模式，及早发现潜在的市场操纵行为，保护投资者利益。

**学术研究**
项目提供了完整的深度学习 pipeline 和详实的技术文档，为金融 AI 领域的研究者和学习者提供了宝贵的参考资料。

**技术启发**
混合 GNN 架构的设计思路不仅适用于内幕交易检测，也可以推广到其他金融风控场景，如反洗钱（AML）、欺诈检测、信用风险评估等。

---

## 总结

本项目展示了图神经网络在金融风控领域的强大潜力。通过将交易数据建模为异构图，结合 GraphSAGE 和 GAT 的优势，系统能够从多维度捕捉异常交易模式。超过35维的精心设计的特征、自动化的数据 pipeline、以及生产级的代码实现，使其成为一个兼具学术价值和实用性的开源项目。

对于希望进入金融 AI 领域的开发者而言，该项目提供了一个完整的端到端参考实现，涵盖数据获取、特征工程、模型训练、性能评估等全流程。随着金融监管对技术工具的依赖日益加深，此类智能检测系统将在维护市场公平性方面发挥越来越重要的作用。