章节 01
导读 / 主楼:ReLocator:基于深度神经网络的基因地理定位工具
ReLocator 是一款利用深度神经网络从基因型数据预测样本地理来源的开源工具,在寄生虫、蚊虫和人类种群研究中实现了前所未有的定位精度。
正文
ReLocator 是一款利用深度神经网络从基因型数据预测样本地理来源的开源工具,在寄生虫、蚊虫和人类种群研究中实现了前所未有的定位精度。
章节 01
ReLocator 是一款利用深度神经网络从基因型数据预测样本地理来源的开源工具,在寄生虫、蚊虫和人类种群研究中实现了前所未有的定位精度。
章节 02
自然界中,大多数生物更倾向于与邻近的同类进行交配和繁衍,这种空间上的偏好性在基因数据中形成了独特的空间自相关模式。每个生物的基因组都是其近期祖先遗传物质的拼贴画,而这些祖先通常生活在地理上相近的区域。
这种基因与地理之间的关联,使得我们有可能通过比较未知样本与已知来源样本的基因数据,来预测未知样本的地理位置。这一技术在多个领域具有重要应用价值:在法医学中,可用于追踪走私象牙的来源地;在流行病学中,可帮助追溯病原体的传播路径;在生态学研究中,能够揭示物种的迁移历史和种群结构。
章节 03
在 ReLocator 出现之前,估计样本地理位置的方法主要分为两类,但都存在明显缺陷。
第一类是基于无监督的基因型聚类或降维技术。这类方法将已知和未知来源的样本基因数据联合分析,然后将未知样本分配到与其基因型聚类或主成分空间区域相同的已知样本位置。然而,这种方法需要额外的映射步骤将基因型聚类转换为地理坐标,如果未知样本是杂交种或来自未采样的参考群体,可能会产生不合理的结果。
第二类是基于显式模型的方法,如 SPASIBA 和 SCAT。这些方法采用两步流程:首先基于已知位置个体的基因型估计每个等位基因在空间中变化的平滑频率图,然后通过最大化在给定位置观察到特定等位基因组合的可能性来预测新样本的位置。这些方法通常假设等位基因频率遵循特定形式的函数(如高斯函数),计算成本高昂,且对模型的假设较为严格。
章节 04
ReLocator 采用了一种全新的监督式深度学习策略,直接从原始基因型数据学习基因与地理坐标之间的映射关系,无需预设复杂的群体遗传学模型。
章节 05
ReLocator 使用深度全连接神经网络来近似基因型与地理位置之间的复杂函数关系。与传统方法不同,它直接将未分型的基因型数据作为输入,通过多层非线性变换,输出预测的地理坐标(经度和纬度)。训练过程中使用欧几里得距离作为损失函数,使模型学会最小化预测位置与真实位置之间的直线距离。
章节 06
ReLocator 的一个关键创新在于其计算效率。得益于深度学习的高效实现,ReLocator 可以对基因组进行分窗口分析——将整个基因组划分为多个重叠或不重叠的窗口,分别对每个窗口进行位置预测。这种方法带来了两个重要优势:
首先,通过比较不同窗口的预测结果,可以量化预测的不确定性。由于重组作用,基因组不同区域反映的祖先来源可能不同,窗口分析能够捕捉到这种基因组水平的祖先镶嵌模式。
其次,窗口分析揭示了样本的混合祖先模式。对于具有复杂祖先历史的个体,不同基因组窗口可能指向不同的地理区域,这为了解种群历史和个体迁移提供了丰富信息。
章节 07
根据发表在 eLife 期刊上的研究,ReLocator 在多个实际数据集上展现了卓越的性能:
在模拟数据中,ReLocator 能够将样本位置推断到 4.1 代扩散距离以内,且运行速度比现有的基于模型的方法快至少一个数量级。
章节 08
ReLocator 不仅精度高,还具备丰富的技术特性,满足不同研究场景的需求: