Zing 论坛

正文

蛋白质大语言模型辅助跨物种单细胞转录组整合:基因同源映射的新范式

本文介绍了一种基于蛋白质大语言模型(pLLM)的跨物种单细胞转录组整合方法,通过蛋白质序列嵌入实现基因同源映射,为比较基因组学和进化生物学研究提供了新工具。

蛋白质语言模型跨物种整合单细胞转录组基因同源映射ESM-2计算生物学比较基因组学
发布时间 2026/05/27 22:14最近活动 2026/05/27 22:51预计阅读 3 分钟
蛋白质大语言模型辅助跨物种单细胞转录组整合:基因同源映射的新范式
1

章节 01

【导读】蛋白质大语言模型辅助跨物种单细胞转录组整合:基因同源映射新范式

标题:蛋白质大语言模型辅助跨物种单细胞转录组整合:基因同源映射的新范式 摘要:本文介绍了一种基于蛋白质大语言模型(pLLM)的跨物种单细胞转录组整合方法,通过蛋白质序列嵌入实现基因同源映射,为比较基因组学和进化生物学研究提供了新工具。 关键词:蛋白质语言模型, 跨物种整合, 单细胞转录组, 基因同源映射, ESM-2, 计算生物学, 比较基因组学 原作者/维护者:KKzhongyi 来源平台:GitHub 原始标题:pLLM-cross-species-integration 原始链接:https://github.com/KKzhongyi/pLLM-cross-species-integration 来源发布时间/更新时间:2026-05-27T14:14:22Z

核心观点:该项目提出基于蛋白质大语言模型(如ESM-2)的跨物种单细胞转录组整合方法,通过蛋白质序列嵌入实现基因同源映射,解决传统方法依赖数据库、忽略功能保守性的问题,为比较基因组学和进化生物学提供新工具。

2

章节 02

背景与挑战:跨物种单细胞整合的核心难题

背景与挑战

跨物种单细胞转录组整合是计算生物学核心难题。比较不同物种相同细胞类型时,最大障碍是基因命名不一致,同源基因名称不同导致直接对齐困难。 传统方法依赖预先构建的同源数据库(如Ensembl Compara、NCBI HomoloGene),但存在覆盖不全、更新滞后问题,且仅基于DNA序列相似性,忽略蛋白质功能保守性。

3

章节 03

方法框架:基于pLLM的两阶段映射与整合流程

方法框架

两阶段映射策略

  1. 蛋白质嵌入生成:提取每个基因编码的蛋白质序列,用预训练pLLM(如ESM-2)生成嵌入向量,捕捉生化特性和结构倾向。
  2. 跨物种最近邻匹配:计算余弦相似度/欧氏距离,建立一对一基因映射,优势包括发现远缘同源、鲁棒性强、效率高。

单细胞数据整合流程

  1. 数据预处理:标准化和特征选择
  2. 基因对齐:构建共享基因空间
  3. 批次校正:消除技术批次效应(scVI、Harmony等)
  4. 联合嵌入:学习细胞类型统一表示
  5. 下游分析:细胞类型注释、差异表达分析、进化保守性评估
4

章节 04

技术优势与生物学意义

技术优势与生物学意义

  • 功能层面对齐:捕捉功能相似性,即使序列分歧大仍能识别同源性。
  • 处理基因复制:区分直系同源与旁系同源,提供精确映射。
  • 支持非模式生物:无需完善注释,只要有蛋白质序列即可生成嵌入,降低研究门槛。
5

章节 05

应用场景:多领域的广阔前景

应用场景

  • 进化发育生物学:比较胚胎发育轨迹,识别保守程序。
  • 疾病模型研究:映射人类疾病细胞状态到小鼠模型,评估有效性。
  • 药物靶点发现:识别跨物种保守靶点,评估转化医学可行性。
  • 比较免疫学:研究免疫细胞类型的保守性与多样性。
6

章节 06

局限性与未来方向

局限性与未来方向

局限性

  • 目前主要支持一对一映射,未处理复杂多对多关系。
  • 仅适用于蛋白质编码基因,非编码RNA整合需其他策略。
  • 不同pLLM模型性能差异需系统评估。

未来方向

  • 整合多序列比对信息。
  • 开发特定物种群微调策略。
  • 与单细胞预训练模型(如scGPT)联合建模。
7

章节 07

结语:连接进化生物学与深度学习的新路径

结语

pLLM-cross-species-integration项目将前沿蛋白质语言模型应用于比较基因组学问题,通过生物序列语义嵌入连接进化生物学与深度学习。随着单细胞技术普及和pLLM进步,这类方法将成为多物种细胞图谱标准工具,推动对生命多样性和统一性的理解。