Zing 论坛

正文

法医祖先推断:基于SNP面板与机器学习的基准研究

探索如何利用五个祖先信息性SNP标记和机器学习算法,从降解DNA样本中准确推断大陆级祖先来源,为法医学应用提供概念验证。

法医遗传学祖先推断SNP机器学习群体遗传学千人基因组DNA降解分类算法
发布时间 2026/06/11 06:16最近活动 2026/06/11 06:20预计阅读 1 分钟
法医祖先推断:基于SNP面板与机器学习的基准研究
1

章节 01

导读:法医祖先推断的概念验证研究

本研究探索使用五个祖先信息性SNP标记和机器学习算法,从降解DNA样本中准确推断大陆级祖先来源,基于千人基因组数据验证了极小SNP面板的可行性,为法医学应用提供概念验证。

2

章节 02

背景:法医学中的DNA挑战与AISNP的解决方案

在法医学实践中,犯罪现场DNA样本常面临量少、降解的挑战;传统STR分析个体识别能力强,但祖先信息有限。祖先信息性SNP(AISNP)在不同大陆人群间频率差异显著,可凭少量标记推断祖先,本研究探索最小化SNP面板的可行性。

3

章节 03

研究设计:数据来源与五标记AISNP面板

数据来自千人基因组第三阶段2504个体,划分为AFR(非洲)、AMR(混血美洲)、EAS(东亚)、EUR(欧洲)、SAS(南亚)五个大陆群体;精心挑选五个经群体遗传学验证的AISNP标记,包括rs2814778(非洲祖先)、rs3827760(东亚祖先)等。

4

章节 04

分析方法:基因型分析与机器学习分类

计算各SNP在群体中的频率(如rs2814778非洲特异);五标记PCA捕获80.3%遗传变异,群体聚类明显;评估四种机器学习模型,SVM准确率最高(91.2%),混血美洲人群准确率较低。

5

章节 05

关键发现:特征重要性与降解鲁棒性

随机森林特征重要性显示rs2814778最具信息量;渐进式SNP缺失实验表明中等缺失下分类性能仍稳健,突显高信息标记的法医价值。

6

章节 06

局限性与未来研究方向

局限:仅评估五个标记,未涉及次大陆群体结构;未来计划:扩展至Kidd55面板、评估集成模型、模拟DNA降解场景、验证独立数据集等。

7

章节 07

实践意义:法医应用的启示

验证极小SNP面板可复现大陆群体结构;样本有限/降解时,少量精心选择的标记仍能提供祖先线索,为案件调查提供额外支持。