Zing 论坛

正文

MNDGNN:基于多重网络与有向图神经网络的癌症驱动基因识别方法

本文介绍 MNDGNN 模型,一种创新的多重网络有向图神经网络方法,通过整合多组学数据和数据增强技术解决癌症驱动基因识别中的标签稀缺和类别不平衡问题。

MNDGNN癌症驱动基因图神经网络多重网络多组学精准医学生物信息学深度学习数据增强
发布时间 2026/04/30 16:15最近活动 2026/04/30 16:22预计阅读 3 分钟
MNDGNN:基于多重网络与有向图神经网络的癌症驱动基因识别方法
1

章节 01

导读 / 主楼:MNDGNN:基于多重网络与有向图神经网络的癌症驱动基因识别方法

本文介绍 MNDGNN 模型,一种创新的多重网络有向图神经网络方法,通过整合多组学数据和数据增强技术解决癌症驱动基因识别中的标签稀缺和类别不平衡问题。

2

章节 02

引言:精准肿瘤学的核心挑战

癌症驱动基因的识别是精准肿瘤学研究和临床应用的基础。这些基因在肿瘤发生发展中起关键作用,是靶向治疗的重要靶点。然而,这一领域面临两个根本性挑战:一是基因间复杂的调控关系难以用单一网络完整刻画;二是经过实验验证的癌症驱动基因数量相对于庞大的基因组来说极为有限,导致严重的标签稀缺和类别不平衡问题。MNDGNN(Multiplex Networks-based Directed Graph Neural Network)正是为解决这些问题而提出的创新方法。

3

章节 03

传统方法的局限

现有的癌症驱动基因识别方法大多依赖单一生物网络(如蛋白质相互作用网络 PPI)来建模基因间关系。这种简化处理方式存在明显不足:

  • 单一视角局限:生物系统中的基因调控是多层次、多类型的,PPI 仅反映蛋白质间的物理相互作用,无法涵盖转录调控、信号通路、激酶-底物关系等其他重要维度
  • 方向性缺失:许多生物相互作用具有明确的方向性(如激酶磷酸化底物),无向图无法表达这种不对称关系
  • 标签稀缺困境:经过实验验证的癌症驱动基因仅数百个,而人类基因组有两万多个蛋白编码基因,正负样本比例极度失衡
4

章节 04

多组学数据的机遇

随着高通量测序技术的发展,多组学数据(基因组、转录组、蛋白质组等)和多种生物网络数据日益丰富。这为整合多重网络信息、构建更全面的基因关系模型提供了可能。

5

章节 05

核心创新点

MNDGNN 提出了三个关键创新:

  1. 多重网络整合:同时利用 PPI、蛋白质复合物、KEGG 通路、RegNetwork、DawnNet、激酶-底物网络等多种网络类型
  2. 有向图卷积:设计专门的有向图卷积操作,捕获邻居多样性和度多样性
  3. 数据增强策略:结合正样本增强和负样本推断,缓解标签稀缺问题
6

章节 06

模型架构

输入层

  • 多组学特征向量(基因表达、突变、拷贝数变异等)
  • 多重邻接矩阵(每种网络类型一个矩阵)

有向图卷积层

传统图卷积网络(GCN)假设图是无向的,且所有邻居对中心节点的贡献相等。MNDGNN 的有向图卷积则考虑了:

  • 邻居多样性:不同类型的邻居(上游调控者、下游靶标、相互作用蛋白)应区别对待
  • 度多样性:节点的入度和出度反映了其在网络中的不同角色

具体实现上,模型为每种网络类型学习独立的卷积核,并通过注意力机制聚合不同网络的表征。

数据增强模块

针对标签稀缺问题,MNDGNN 采用双管齐下的策略:

  • 正样本增强:对已知的癌症驱动基因,通过在网络中的邻居相似性进行数据扩充
  • 负样本推断:利用异常检测算法(如 DeepOD)从大量未标记基因中识别"高置信度非驱动基因"作为负样本

预测层

采用多层感知机(MLP)输出每个基因是癌症驱动基因的概率,并使用类别权重处理类别不平衡。

7

章节 07

网络类型详解

MNDGNN 整合了六种类型的生物网络:

  1. PPI 网络:蛋白质间的物理相互作用
  2. 蛋白质复合物网络:共同参与同一复合物的蛋白关系
  3. KEGG 通路网络:代谢和信号通路中的基因关系
  4. RegNetwork:转录因子与靶基因的调控关系
  5. DawnNet:疾病相关基因网络
  6. 激酶-底物网络:磷酸化修饰的酶-底物关系

这些网络从不同角度刻画了基因间的功能关联,整合后能够更全面地反映基因在癌症发生中的潜在作用。

8

章节 08

数据集

研究使用了以下数据资源:

  • 多组学数据:TCGA 等项目的基因表达、突变、拷贝数变异数据
  • 已验证驱动基因:来自 Cancer Gene Census 等权威数据库
  • 候选基因集:经过初步筛选的可能癌症相关基因