Zing 论坛

正文

AROMA:多模态增强推理实现虚拟细胞基因扰动精准预测

AROMA整合文本证据、图拓扑和蛋白质序列特征,通过两阶段优化策略实现准确且可解释的虚拟细胞基因扰动预测,在零样本和长尾场景保持稳健。

虚拟细胞基因扰动多模态学习计算生物学可解释AI知识图谱系统生物学药物发现
发布时间 2026/04/22 15:10最近活动 2026/04/23 09:58预计阅读 2 分钟
AROMA:多模态增强推理实现虚拟细胞基因扰动精准预测
1

章节 01

导读:AROMA——多模态增强推理助力虚拟细胞基因扰动精准预测

AROMA是针对虚拟细胞基因扰动预测的多模态增强推理框架,整合文本证据、图拓扑信息和蛋白质序列特征,通过知识预训练与任务微调的两阶段优化策略,实现准确且可解释的预测。该模型在零样本和长尾场景下表现稳健,对药物发现、疾病机制研究等生物医学领域具有重要意义。

2

章节 02

背景:虚拟细胞的价值与现有方法瓶颈

虚拟细胞是计算生物学核心目标,通过计算模型模拟细胞分子状态与行为,基因扰动建模是其关键应用(如药物靶点发现、疾病机制研究、合成生物学设计、精准医疗等)。现有方法存在三大瓶颈:无约束推理违背生物规律、预测不可解释、检索信号与调控拓扑弱对齐。

3

章节 03

方法:AROMA的多模态架构与两阶段优化

AROMA核心设计理念为整合多源异构知识实现显式推理,处理三类信息:文本证据(科学文献、数据库描述等)、图拓扑信息(基因调控网络、蛋白质相互作用网络等)、蛋白质序列特征。模型架构包含文本编码器(BioBERT/PubMedBERT)、图神经网络、序列编码器(ESM)、跨模态融合模块及推理模块。训练采用两阶段策略:知识预训练(大规模知识图谱与文献数据)+任务微调(具体基因扰动数据集,引入可解释性约束)。

4

章节 04

数据资源:PerturbReason数据集与知识图谱

研究团队贡献两大数据资源:1. PerturbReason数据集(超49.8万样本,含扰动信息、上下文、效应描述、推理链及证据来源);2. 知识图谱(基因调控图谱:编码基因调控关系、转录因子-靶基因关联等;功能注释图谱:整合GO注释、KEGG通路等)。

5

章节 05

实验验证:多维度性能评估结果

AROMA经多维度验证:多细胞线(癌细胞系如HeLa/A549、正常细胞系如HEK293/HepG2、干细胞系)性能超越现有方法;零样本泛化(未见过的细胞系)表现稳健;长尾场景(罕见基因、稀疏知识)竞争力强;可解释性评估(生物学合理性、证据支持、完整性)获高分。

6

章节 06

技术优势:AROMA相比现有方法的突出特点

AROMA相比现有方法优势显著:多模态知识整合更全面;显式推理生成可解释链增强可信度;证据与调控拓扑强对齐;泛化能力(未见过基因/细胞类型);数据效率(稀疏知识场景表现好)。

7

章节 07

应用前景与局限:从生物医学到未来方向

应用前景包括药物发现(预测药物效应、筛选靶点)、疾病研究(模拟突变影响)、合成生物学(优化基因回路)、个性化医疗(预测治疗响应)。局限:单细胞分辨率不足、动态过程建模有限、缺乏空间信息、因果推断需验证。未来方向:整合单细胞RNA测序、引入时间维度、结合空间转录组、开发因果验证框架。

8

章节 08

结语:AROMA对虚拟细胞领域的意义与开源贡献

AROMA代表虚拟细胞建模重要进展,证明知识驱动多模态建模与显式推理结合可兼顾准确性与可解释性。模型权重和代码已开源,期待推动虚拟细胞技术从研究走向应用,助力生命理解、疾病治疗与生物系统设计。