正文

蛋白质大语言模型辅助跨物种单细胞转录组整合：基因同源映射的新范式

本文介绍了一种基于蛋白质大语言模型（pLLM）的跨物种单细胞转录组整合方法，通过蛋白质序列嵌入实现基因同源映射，为比较基因组学和进化生物学研究提供了新工具。

蛋白质语言模型跨物种整合单细胞转录组基因同源映射ESM-2计算生物学比较基因组学

发布时间 2026/05/27 22:14最近活动 2026/05/27 22:51预计阅读 3 分钟

章节 01

【导读】蛋白质大语言模型辅助跨物种单细胞转录组整合：基因同源映射新范式

标题：蛋白质大语言模型辅助跨物种单细胞转录组整合：基因同源映射的新范式摘要：本文介绍了一种基于蛋白质大语言模型（pLLM）的跨物种单细胞转录组整合方法，通过蛋白质序列嵌入实现基因同源映射，为比较基因组学和进化生物学研究提供了新工具。关键词：蛋白质语言模型, 跨物种整合, 单细胞转录组, 基因同源映射, ESM-2, 计算生物学, 比较基因组学原作者/维护者：KKzhongyi 来源平台：GitHub 原始标题：pLLM-cross-species-integration 原始链接：https://github.com/KKzhongyi/pLLM-cross-species-integration 来源发布时间/更新时间：2026-05-27T14:14:22Z

核心观点：该项目提出基于蛋白质大语言模型（如ESM-2）的跨物种单细胞转录组整合方法，通过蛋白质序列嵌入实现基因同源映射，解决传统方法依赖数据库、忽略功能保守性的问题，为比较基因组学和进化生物学提供新工具。

章节 02

背景与挑战：跨物种单细胞整合的核心难题

背景与挑战

跨物种单细胞转录组整合是计算生物学核心难题。比较不同物种相同细胞类型时，最大障碍是基因命名不一致，同源基因名称不同导致直接对齐困难。传统方法依赖预先构建的同源数据库（如Ensembl Compara、NCBI HomoloGene），但存在覆盖不全、更新滞后问题，且仅基于DNA序列相似性，忽略蛋白质功能保守性。

章节 03

方法框架：基于pLLM的两阶段映射与整合流程

方法框架

两阶段映射策略

蛋白质嵌入生成：提取每个基因编码的蛋白质序列，用预训练pLLM（如ESM-2）生成嵌入向量，捕捉生化特性和结构倾向。
跨物种最近邻匹配：计算余弦相似度/欧氏距离，建立一对一基因映射，优势包括发现远缘同源、鲁棒性强、效率高。

单细胞数据整合流程

数据预处理：标准化和特征选择
基因对齐：构建共享基因空间
批次校正：消除技术批次效应（scVI、Harmony等）
联合嵌入：学习细胞类型统一表示
下游分析：细胞类型注释、差异表达分析、进化保守性评估

章节 04

技术优势与生物学意义

功能层面对齐：捕捉功能相似性，即使序列分歧大仍能识别同源性。
处理基因复制：区分直系同源与旁系同源，提供精确映射。
支持非模式生物：无需完善注释，只要有蛋白质序列即可生成嵌入，降低研究门槛。

章节 05

应用场景：多领域的广阔前景

应用场景

进化发育生物学：比较胚胎发育轨迹，识别保守程序。
疾病模型研究：映射人类疾病细胞状态到小鼠模型，评估有效性。
药物靶点发现：识别跨物种保守靶点，评估转化医学可行性。
比较免疫学：研究免疫细胞类型的保守性与多样性。

章节 06

局限性与未来方向

局限性：

目前主要支持一对一映射，未处理复杂多对多关系。
仅适用于蛋白质编码基因，非编码RNA整合需其他策略。
不同pLLM模型性能差异需系统评估。

未来方向：

整合多序列比对信息。
开发特定物种群微调策略。
与单细胞预训练模型（如scGPT）联合建模。

章节 07

结语：连接进化生物学与深度学习的新路径

结语

pLLM-cross-species-integration项目将前沿蛋白质语言模型应用于比较基因组学问题，通过生物序列语义嵌入连接进化生物学与深度学习。随着单细胞技术普及和pLLM进步，这类方法将成为多物种细胞图谱标准工具，推动对生命多样性和统一性的理解。

蛋白质大语言模型辅助跨物种单细胞转录组整合：基因同源映射的新范式

【导读】蛋白质大语言模型辅助跨物种单细胞转录组整合：基因同源映射新范式

背景与挑战：跨物种单细胞整合的核心难题

背景与挑战

方法框架：基于pLLM的两阶段映射与整合流程

方法框架

两阶段映射策略

单细胞数据整合流程

技术优势与生物学意义

技术优势与生物学意义

应用场景：多领域的广阔前景

应用场景

局限性与未来方向

局限性与未来方向

结语：连接进化生物学与深度学习的新路径

结语

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统