Zing 论坛

正文

DEGEmbedR:基于大语言模型嵌入的基因功能分析R包

DEGEmbedR是一个创新的R语言工具包,利用大语言模型嵌入技术实现基因与功能关系的统计检验。它突破了传统基因集分析的局限,支持对精选功能数据库和自定义功能假设的分析。

R包生物信息学差异表达基因大语言模型基因功能分析嵌入向量统计检验GO富集分析
发布时间 2026/05/31 21:14最近活动 2026/05/31 21:19预计阅读 3 分钟
DEGEmbedR:基于大语言模型嵌入的基因功能分析R包
1

章节 01

导读 / 主楼:DEGEmbedR:基于大语言模型嵌入的基因功能分析R包

DEGEmbedR是一个创新的R语言工具包,利用大语言模型嵌入技术实现基因与功能关系的统计检验。它突破了传统基因集分析的局限,支持对精选功能数据库和自定义功能假设的分析。

2

章节 02

原作者与来源

  • 原作者/维护者: chiu-lab
  • 来源平台: GitHub
  • 原始标题: DEGEmbedR
  • 原始链接: https://github.com/chiu-lab/DEGEmbedR
  • 发布时间: 2025年10月27日(最近更新:2026年5月31日)
  • 许可证: MIT License

3

章节 03

背景与挑战

在生物信息学研究中,差异表达基因(DEG)的功能分析是一个核心任务。传统方法如GO富集分析依赖于预定义的基因集,将基因视为离散的分类单元。然而,这种方法存在明显局限:基因功能往往是连续谱系而非二元分类,且许多新发现的功能假设无法被现有数据库覆盖。

随着大语言模型(LLM)在自然语言处理领域的突破,研究者开始探索将生物序列和功能描述转化为连续向量空间中的嵌入表示。这种表示方式能够捕捉基因与功能之间的语义相似性,为基因功能分析开辟了新途径。


4

章节 04

DEGEmbedR核心概念

DEGEmbedR是一个专为R语言设计的工具包,其核心创新在于将基因和功能描述都嵌入到同一个连续语义空间中。这种设计使得研究者能够:

  1. 打破基因集限制:不再依赖固定的基因列表,而是利用LLM生成的连续向量表示
  2. 量化基因-功能关系:通过余弦相似度分布进行统计检验,评估DEG与特定功能之间的关联强度
  3. 支持新颖假设:不仅能分析精选数据库中的已知功能,还能测试LLM生成的全新功能假设

该工具包由Chiu实验室开发,相关研究成果已投稿至期刊审稿中。


5

章节 05

双模式分析框架

DEGEmbedR提供两种互补的工作流程,均通过主函数RunDEGEmbedR()实现:

模式一:精选数据库分析

该模式测试用户的DEG列表与精选功能数据库的关联,包括:

  • GO-BP(基因本体生物学过程)
  • CP(经典通路):BioCarta、KEGG、PID、Reactome、WikiPathways

模式二:AI生成假设分析

该模式利用GPT-4o模型生成新颖的功能假设,适用于测试不在现有数据库中的生物学功能。此模式需要OpenAI API密钥。

6

章节 06

统计输出指标

DEGEmbedR提供全面的统计评估:

  • DEG与背景基因的中位数余弦相似度
  • 中位数差异
  • Wilcoxon秩和检验的单尾p值
  • Cliff's delta效应量及95%置信区间
  • 驱动信号的顶级DEG列表

7

章节 07

示例1:DNA修复通路分析

研究人员可以分析NeST79基因集(ATM依赖性DNA修复相关基因)与GO生物学过程的关联:

NeST79 <- c('ATM', 'AURKA', 'BARD1', 'BLM', 'BRCA1', 'BRCA2', ...)
result_tb1 <- RunDEGEmbedR(
  degs = NeST79,
  category = "GOBP"
)
8

章节 08

示例2:新颖功能假设生成

对于p53活性泛素调控这一特定功能,可以生成并测试AI假设:

NeST105 <- c('CUL3', 'ELOC', 'FBXW7', 'HSP90AA1', 'MDM2', ...)
result_tb2 <- RunDEGEmbedR(
  degs = NeST105,
  category = "GSAI",
  api_key = api_key
)