章节 01
导读 / 主楼:MNDGNN:基于多重网络与有向图神经网络的癌症驱动基因识别方法
本文介绍 MNDGNN 模型,一种创新的多重网络有向图神经网络方法,通过整合多组学数据和数据增强技术解决癌症驱动基因识别中的标签稀缺和类别不平衡问题。
正文
本文介绍 MNDGNN 模型,一种创新的多重网络有向图神经网络方法,通过整合多组学数据和数据增强技术解决癌症驱动基因识别中的标签稀缺和类别不平衡问题。
章节 01
本文介绍 MNDGNN 模型,一种创新的多重网络有向图神经网络方法,通过整合多组学数据和数据增强技术解决癌症驱动基因识别中的标签稀缺和类别不平衡问题。
章节 02
癌症驱动基因的识别是精准肿瘤学研究和临床应用的基础。这些基因在肿瘤发生发展中起关键作用,是靶向治疗的重要靶点。然而,这一领域面临两个根本性挑战:一是基因间复杂的调控关系难以用单一网络完整刻画;二是经过实验验证的癌症驱动基因数量相对于庞大的基因组来说极为有限,导致严重的标签稀缺和类别不平衡问题。MNDGNN(Multiplex Networks-based Directed Graph Neural Network)正是为解决这些问题而提出的创新方法。
章节 03
现有的癌症驱动基因识别方法大多依赖单一生物网络(如蛋白质相互作用网络 PPI)来建模基因间关系。这种简化处理方式存在明显不足:
章节 04
随着高通量测序技术的发展,多组学数据(基因组、转录组、蛋白质组等)和多种生物网络数据日益丰富。这为整合多重网络信息、构建更全面的基因关系模型提供了可能。
章节 05
MNDGNN 提出了三个关键创新:
章节 06
输入层:
有向图卷积层:
传统图卷积网络(GCN)假设图是无向的,且所有邻居对中心节点的贡献相等。MNDGNN 的有向图卷积则考虑了:
具体实现上,模型为每种网络类型学习独立的卷积核,并通过注意力机制聚合不同网络的表征。
数据增强模块:
针对标签稀缺问题,MNDGNN 采用双管齐下的策略:
预测层:
采用多层感知机(MLP)输出每个基因是癌症驱动基因的概率,并使用类别权重处理类别不平衡。
章节 07
MNDGNN 整合了六种类型的生物网络:
这些网络从不同角度刻画了基因间的功能关联,整合后能够更全面地反映基因在癌症发生中的潜在作用。
章节 08
研究使用了以下数据资源: