# 法医祖先推断：基于SNP面板与机器学习的基准研究

> 探索如何利用五个祖先信息性SNP标记和机器学习算法，从降解DNA样本中准确推断大陆级祖先来源，为法医学应用提供概念验证。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-10T22:16:00.000Z
- 最近活动: 2026-06-10T22:20:15.739Z
- 热度: 150.9
- 关键词: 法医遗传学, 祖先推断, SNP, 机器学习, 群体遗传学, 千人基因组, DNA降解, 分类算法
- 页面链接: https://www.zingnex.cn/forum/thread/snp
- Canonical: https://www.zingnex.cn/forum/thread/snp
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者：** ag48665
- **来源平台：** GitHub
- **原始标题：** forensic-ancestry-benchmark
- **原始链接：** https://github.com/ag48665/forensic-ancestry-benchmark
- **发布时间：** 2026年6月10日

---

## 背景：当DNA证据需要回答"我是谁"

在法医学实践中，犯罪现场提取的DNA样本往往面临两大挑战：一是样本量极其有限，二是DNA可能已经降解。传统的STR（短串联重复序列）分析虽然个体识别能力强大，但在揭示个体的生物地理祖先信息方面能力有限。

祖先推断SNP（Ancestry-Informative SNPs, AISNPs）为此提供了解决方案。这些特定的单核苷酸多态性位点在不同大陆人群间表现出显著的频率差异，使得仅凭少量遗传标记就能推断出个体的祖先来源。本研究正是基于这一原理，探索最小化SNP面板在法医祖先推断中的可行性。

---

## 研究设计：从千人基因组到五标记面板

### 数据来源与人群划分

本研究采用千人基因组计划第三阶段（1000 Genomes Project Phase 3）的数据作为参考基准，涵盖2504个个体，划分为五个大陆超级群体：

- **AFR** — 非洲人群
- **AMR** — 混血美洲人群
- **EAS** — 东亚人群
- **EUR** — 欧洲人群
- **SAS** — 南亚人群

### 五标记AISNP面板

研究团队精心挑选了五个在法医学文献中广泛研究的祖先信息性SNP：

| SNP位点 | 基因/区域 | 法医学意义 |
|---------|-----------|-----------|
| rs2814778 | ACKR1 (Duffy) | 非洲祖先标记 |
| rs3827760 | EDAR | 东亚祖先标记 |
| rs1426654 | SLC24A5 | 色素沉着相关AISNP |
| rs16891982 | SLC45A2 | 欧洲色素沉着标记 |
| rs12913832 | HERC2/OCA2 | 眼睛色素沉着标记 |

这些标记的选择并非随意——它们代表了不同大陆人群间最显著的遗传分化位点，其中Duffy血型基因座在非洲人群中的特异性、EDAR基因在东亚人群中的富集模式，都已被群体遗传学充分验证。

---

## 分析方法：从基因型到机器学习分类

### 基因型频率分析

研究首先计算了每个AISNP在各大陆超级群体中的基因型频率分布。结果证实了预期：rs2814778表现出强烈的非洲特异性，rs3827760在东亚人群中高度富集，rs16891982则在欧洲人群中显示出明显的富集模式。

### 主成分分析揭示群体结构

仅使用五个SNP标记进行的主成分分析（PCA）取得了令人惊讶的效果：

- **第一主成分**解释了52.7%的总变异
- **第二主成分**解释了27.6%的变异
- 两者合计捕获了**80.3%**的遗传变异

非洲样本形成了明显的独立聚类，东亚人群主要沿第二主成分分离，欧洲人群占据PCA空间的另一区域，而混血美洲人群则呈现出与其混合大陆祖先相符的分散分布。这一结果表明，即使是极小的AISNP面板也能有效捕获大陆级群体结构。

### 机器学习分类器评估

研究评估了四种监督式机器学习模型：

| 模型 | 准确率 |
|------|--------|
| 支持向量机（SVM） | 91.2% |
| 逻辑回归 | 90.8% |
| 随机森林 | 90.6% |
| 决策树 | 90.2% |

支持向量机取得了最高的分类准确率（91.2%），但各模型间性能差异相对较小。值得注意的是，非洲、东亚、欧洲和南亚人群的分类性能较高，而混血美洲人群的准确率相对较低——这与该群体的混合祖先组成特征一致。

---

## 关键发现：特征重要性与降解鲁棒性

### 最具信息量的标记

随机森林的特征重要性分析揭示了各SNP对祖先分类的相对贡献：

| SNP | 重要性得分 |
|-----|-----------|
| rs2814778 | 0.315 |
| rs16891982 | 0.226 |
| rs3827760 | 0.216 |
| rs1426654 | 0.172 |
| rs12913832 | 0.072 |

rs2814778（Duffy基因座）被确定为最具信息量的标记，其重要性得分几乎是排名最后的rs12913832的四倍。这一排序与已建立的法医遗传学文献高度一致，反映了已知的人群分化模式。

### SNP缺失的鲁棒性测试

研究还进行了渐进式SNP缺失实验，模拟部分遗传图谱和降解法医DNA样本的条件。结果显示：

- 随着标记从面板中移除，分类准确率逐渐下降
- 但在中等程度的SNP缺失条件下，分类性能仍保持相对稳健
- 这突显了高信息AISNP标记在法医应用中的价值

---

## 局限性与未来方向

### 当前局限

本研究仅评估了五个代表性AISNP。虽然实现了高准确率的大陆级分类，但更大的AISNP面板（如Kidd 55标记面板）可能会进一步提升性能，特别是对于混血人群和精细尺度祖先推断。

此外，该基准测试聚焦于大陆级祖先分类，未涉及次大陆群体结构的解析。

### 未来发展规划

该项目的未来开发方向包括：

- 扩展至完整的Kidd 55 AISNP面板
- 评估XGBoost和集成分类器
- 模拟法医DNA降解场景
- 使用独立人群数据集进行验证
- 调查精细尺度群体结构
- 评估缺失基因型条件下的祖先预测能力

---

## 实践意义与启示

这项研究为法医遗传学领域提供了重要的概念验证：即使是极小的AISNP面板（仅五个标记），也能成功复现千人基因组参考数据集中已知的大陆级群体结构。

主成分分析、基因型频率分布和机器学习分类结果一致表明，所选标记蕴含了丰富的祖先信息。这些发现验证了分析工作流程的有效性，并支持未来基于更大AISNP面板和降解基因型图谱的机器学习法医祖先预测系统的开发。

对于法医学实践者而言，这项研究表明：在样本极度有限或高度降解的情况下，仅通过少量精心选择的SNP标记，仍有可能获得有价值的祖先推断信息，为案件调查提供额外的线索。
