# DEGEmbedR：基于大语言模型嵌入的基因功能分析R包

> DEGEmbedR是一个创新的R语言工具包，利用大语言模型嵌入技术实现基因与功能关系的统计检验。它突破了传统基因集分析的局限，支持对精选功能数据库和自定义功能假设的分析。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-31T13:14:49.000Z
- 最近活动: 2026-05-31T13:19:23.896Z
- 热度: 159.9
- 关键词: R包, 生物信息学, 差异表达基因, 大语言模型, 基因功能分析, 嵌入向量, 统计检验, GO富集分析
- 页面链接: https://www.zingnex.cn/forum/thread/degembedr-r
- Canonical: https://www.zingnex.cn/forum/thread/degembedr-r
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: chiu-lab
- **来源平台**: GitHub
- **原始标题**: DEGEmbedR
- **原始链接**: https://github.com/chiu-lab/DEGEmbedR
- **发布时间**: 2025年10月27日（最近更新：2026年5月31日）
- **许可证**: MIT License

---

## 背景与挑战

在生物信息学研究中，差异表达基因（DEG）的功能分析是一个核心任务。传统方法如GO富集分析依赖于预定义的基因集，将基因视为离散的分类单元。然而，这种方法存在明显局限：基因功能往往是连续谱系而非二元分类，且许多新发现的功能假设无法被现有数据库覆盖。

随着大语言模型（LLM）在自然语言处理领域的突破，研究者开始探索将生物序列和功能描述转化为连续向量空间中的嵌入表示。这种表示方式能够捕捉基因与功能之间的语义相似性，为基因功能分析开辟了新途径。

---

## DEGEmbedR核心概念

DEGEmbedR是一个专为R语言设计的工具包，其核心创新在于将基因和功能描述都嵌入到同一个连续语义空间中。这种设计使得研究者能够：

1. **打破基因集限制**：不再依赖固定的基因列表，而是利用LLM生成的连续向量表示
2. **量化基因-功能关系**：通过余弦相似度分布进行统计检验，评估DEG与特定功能之间的关联强度
3. **支持新颖假设**：不仅能分析精选数据库中的已知功能，还能测试LLM生成的全新功能假设

该工具包由Chiu实验室开发，相关研究成果已投稿至期刊审稿中。

---

## 技术实现与工作流程

### 双模式分析框架

DEGEmbedR提供两种互补的工作流程，均通过主函数`RunDEGEmbedR()`实现：

**模式一：精选数据库分析**

该模式测试用户的DEG列表与精选功能数据库的关联，包括：
- GO-BP（基因本体生物学过程）
- CP（经典通路）：BioCarta、KEGG、PID、Reactome、WikiPathways

**模式二：AI生成假设分析**

该模式利用GPT-4o模型生成新颖的功能假设，适用于测试不在现有数据库中的生物学功能。此模式需要OpenAI API密钥。

### 统计输出指标

DEGEmbedR提供全面的统计评估：
- DEG与背景基因的中位数余弦相似度
- 中位数差异
- Wilcoxon秩和检验的单尾p值
- Cliff's delta效应量及95%置信区间
- 驱动信号的顶级DEG列表

---

## 实际应用示例

### 示例1：DNA修复通路分析

研究人员可以分析NeST79基因集（ATM依赖性DNA修复相关基因）与GO生物学过程的关联：

```r
NeST79 <- c('ATM', 'AURKA', 'BARD1', 'BLM', 'BRCA1', 'BRCA2', ...)
result_tb1 <- RunDEGEmbedR(
  degs = NeST79,
  category = "GOBP"
)
```

### 示例2：新颖功能假设生成

对于p53活性泛素调控这一特定功能，可以生成并测试AI假设：

```r
NeST105 <- c('CUL3', 'ELOC', 'FBXW7', 'HSP90AA1', 'MDM2', ...)
result_tb2 <- RunDEGEmbedR(
  degs = NeST105,
  category = "GSAI",
  api_key = api_key
)
```

---

## 系统要求与安装

### 环境要求
- R (>= 4.2.3)
- 互联网连接（仅LLM生成模式需要OpenAI API调用）
- 建议配置：8GB+ RAM的macOS/Linux/Windows系统

### 依赖包
工具包自动安装以下依赖：`tibble`、`stringr`、`lsa`、`effsize`、`httr`、`jsonlite`

### 安装命令
```r
# install.packages("remotes")
remotes::install_github("chiu-lab/DEGEmbedR")

# 可选：使用vignettes构建
# remotes::install_github("chiu-lab/DEGEmbedR", build_vignettes = TRUE)
```

---

## 关键特性总结

1. **基因集无关的功能建模**：使用连续LLM嵌入而非固定基因列表
2. **统一统计检验**：提供完整的DEG-功能关系统计评估
3. **双源兼容**：同时支持精选功能注释和LLM生成功能假设
4. **可重复与离线**：仅LLM生成模式需要联网，所有统计测试均可离线运行

---

## 引用信息

如果在研究中使用DEGEmbedR，请引用：

> Tan, Y., Wang, L.-J., Liang, T., Lai, Y.-J., Shih, C.-H., Guo, Y., Yasaka, T. M., Tseng, G. C., & Chiu, Y.-C. (2026). *An embedding-based framework enables statistical testing of gene-set function hypotheses inferred by large language models.* **Under review**

可通过R命令获取BibTeX引用：
```r
citation("DEGEmbedR")
```

---

## 获取与贡献

- **GitHub仓库**: https://github.com/chiu-lab/DEGEmbedR
- **问题反馈**: 通过GitHub Issues提交
- **代码贡献**: 欢迎Pull Requests
