章节 01
导读 / 主楼:基于图神经网络的异常交易检测:GraphSAGE与GAT混合架构在金融风控中的应用
本文介绍了一个利用混合图神经网络架构检测可疑内幕交易的开源项目,详细解析其数据 pipeline、模型架构设计、特征工程方法以及实际应用价值。
正文
本文介绍了一个利用混合图神经网络架构检测可疑内幕交易的开源项目,详细解析其数据 pipeline、模型架构设计、特征工程方法以及实际应用价值。
章节 01
本文介绍了一个利用混合图神经网络架构检测可疑内幕交易的开源项目,详细解析其数据 pipeline、模型架构设计、特征工程方法以及实际应用价值。
章节 02
章节 03
金融市场的公平性一直是监管机构关注的核心议题。内幕交易作为一种严重的市场操纵行为,不仅损害普通投资者的利益,也破坏了市场的信任基础。传统的内幕交易检测方法主要依赖于规则引擎和统计阈值,这些方法往往难以捕捉复杂的关联模式和时序特征。
近年来,图神经网络(Graph Neural Network, GNN)在金融风控领域展现出巨大潜力。通过将交易数据建模为图结构,可以自然地捕捉实体之间的关系:同一内部人员的多笔交易、同一公司的相关交易、以及同行业公司的关联交易。本项目正是基于这一思路,构建了一个生产级的深度学习检测系统。
章节 04
项目采用了 GraphSAGE 与 Graph Attention Network(GAT)的混合架构,兼顾了归纳式学习和注意力机制的优势:
输入节点特征(35+维度)
│
▼
┌─────────────┐
│ SAGEConv │ ← 归纳式邻域聚合
│ + BN │
└──────┬──────┘
│ (ELU激活 + Dropout)
▼
┌─────────────┐
│ GATConv │ ← 多头自注意力(4头)
│ + BN │
└──────┬──────┘
│ (ELU激活 + Dropout)
▼
┌─────────────┐
│ SAGEConv │
└──────┬──────┘
│ (ELU激活)
▼
┌─────────────┐
│ GATConv │ ← 最终卷积层
└──────┬──────┘
▼
┌─────────────┐
│ MLP (2层) │ ← 多层感知机分类器
└──────┬──────┘
▼
[正常 / 可疑]
这种架构设计的巧妙之处在于:GraphSAGE 层负责聚合邻域信息,学习节点的局部结构特征;GAT 层则通过多头注意力机制,动态地为不同邻居分配权重,捕捉更细粒度的关系重要性。两者的交替堆叠形成了深度特征提取能力。
章节 05
项目构建了一个异构图网络,包含四种边类型:
时序边(Temporal Edges) 连接同一内部人员随时间执行的交易。这种边捕捉了个人交易行为的演变模式,例如某位高管是否在短时间内频繁买卖本公司股票。
关系边(Relational Edges) 连接与同一目标公司相关的交易。通过这类边,模型可以学习公司层面的交易模式,识别异常的公司内部交易集中现象。
同业边(Peer Edges) 连接相同标准行业分类(SIC)代码的公司交易。这类边引入了行业上下文,使得模型能够区分行业普遍行为和异常行为。
这种多关系图结构的设计体现了金融领域的专业知识:内幕交易往往不仅涉及单一交易,而是在时间、公司、行业等多个维度上呈现出异常模式。
章节 06
项目构建了超过35维的节点特征,涵盖交易属性、内部人员画像、技术指标三个层面:
章节 07
log_tx_value: 交易金额的对数变换(美元)log_shares: 交易股数的对数变换transaction_code_enc: 交易类型编码(购买、出售、赠与等)acquired_disposed_enc: 交易方向编码(增持 vs 减持)days_to_file: 交易执行与SEC披露的时间差ownership_pct_change: 内部人员总持股的比例变化is_quarter_end: 是否发生在季度末附近章节 08
insider_tx_count: 该内部人员的总交易频次insider_total_val: 该内部人员的累计交易净值insider_sell_ratio: 历史卖出交易占比officer_title_enc: 职位等级编码(CEO、CFO、董事等)