Zing 论坛

正文

Epi-PRS:利用基因组大语言模型实现精准多基因风险预测

本文介绍Epi-PRS项目,一种创新的多基因风险评分方法,通过基因组大语言模型将个人DNA序列转换为个性化的基因组和表观基因组特征,为疾病风险建模提供新思路。

多基因风险评分基因组学大语言模型Enformer精准医学疾病风险预测深度学习GWAS
发布时间 2026/06/17 02:11最近活动 2026/06/17 02:25预计阅读 2 分钟
Epi-PRS:利用基因组大语言模型实现精准多基因风险预测
1

章节 01

Epi-PRS:利用基因组大语言模型实现精准多基因风险预测(导读)

原作者/维护者:SUwonglab 来源平台:GitHub 原始链接:https://github.com/SUwonglab/Epi-PRS 发布时间:2026-06-16T18:11:51Z

Epi-PRS是一种创新的多基因风险评分方法,通过基因组大语言模型(如DeepMind的Enformer)将个人DNA序列转换为个性化的基因组和表观基因组特征,解决传统PRS方法依赖统计关联、忽略基因调控机制等局限,为疾病风险建模提供新思路。

2

章节 02

项目背景:传统PRS方法的局限

传统PRS基于GWAS summary statistics,存在以下局限:

  1. 线性假设局限:忽略基因间相互作用和非线性效应;
  2. 功能注释缺失:难以利用非编码区调控变异的信息;
  3. 人群偏倚:在非欧洲人群中预测准确性下降。Epi-PRS试图通过深度学习模型缓解这些问题。
3

章节 03

核心技术与方法流程

核心技术:Enformer模型 Enformer是DeepMind开发的Transformer架构模型,可预测DNA序列的分子表型,特点包括:

  • 接受长达196608碱基对的序列输入;
  • 多任务预测5313个分子表型;
  • 捕捉长程序列依赖。

Epi-PRS工作流程

  1. 个人基因组特征提取:从目标区域DNA序列中提取Enformer特征;
  2. 表观基因组特征工程:跨细胞类型聚合、功能区域加权、降维;
  3. 风险预测模型训练:使用线性模型、弹性网络或梯度提升树训练预测模型。
4

章节 04

技术优势与应用场景

技术优势

  • 生物学可解释性:特征对应明确分子表型;
  • 利用非编码区变异:覆盖98%非编码基因组;
  • 整合罕见变异:从完整序列学习;
  • 跨人群泛化:基于多样化数据训练。

应用场景

  • 疾病风险分层:如乳腺癌高风险个体早期筛查;
  • 药物基因组学:指导个性化用药;
  • 复杂疾病研究:识别风险基因和调控通路。项目仓库包含乳腺癌风险预测示例。
5

章节 05

局限与挑战

Epi-PRS面临的挑战:

  1. 计算成本高:Enformer推理需大量资源;
  2. 特征维度大:易导致过拟合;
  3. 因果推断问题:仅识别统计关联而非因果效应;
  4. 模型更新需求:需随新数据更新参考基因组和细胞类型信息。
6

章节 06

未来发展方向

Epi-PRS的未来方向:

  1. 更强大的基础模型:支持更长序列和更多预测任务;
  2. 多组学整合:结合转录组、蛋白质组等数据;
  3. 因果推断方法:区分相关性与因果性;
  4. 临床转化研究:验证临床效用和成本效益。
7

章节 07

结语

Epi-PRS将深度学习与基因组学融合,为多基因风险预测开辟新路径,不仅提升预测准确性,还增进对疾病遗传机制的理解。随着数据积累和计算能力提升,这类方法将在精准医学中发挥重要作用,为研究者和临床医生提供更精准的风险评估工具。