正文

AROMA：融合多模态推理与强化学习的虚拟细胞基因扰动预测新框架

AROMA是ACL 2026收录的多模态虚拟细胞建模框架，通过整合文本证据、图拓扑结构与蛋白质序列，结合检索增强策略与GRPO强化学习，实现基因扰动效应的高精度预测与可解释性分析。

虚拟细胞建模基因扰动预测多模态学习知识图谱强化学习GRPO计算生物学ACL2026AI4Science

发布时间 2026/04/23 14:13最近活动 2026/04/23 14:53预计阅读 3 分钟

章节 01

【主楼/导读】AROMA：融合多模态推理与强化学习的虚拟细胞基因扰动预测新框架

AROMA是ACL 2026收录的多模态虚拟细胞建模框架，通过整合文本证据、图拓扑结构与蛋白质序列，结合检索增强策略与GRPO强化学习，实现基因扰动效应的高精度预测与可解释性分析，旨在解决传统基因扰动实验成本高、周期长等痛点，推动自然语言处理与计算生物学的交叉融合。

章节 02

研究背景与核心挑战

在生物医学研究中，基因扰动实验是理解细胞功能与疾病机制的核心手段，但传统wet-lab实验成本高昂、周期漫长，难以系统性探索海量基因组合影响。虚拟细胞建模作为计算生物学前沿方向，可模拟细胞对基因扰动的响应，降低成本并加速药物靶点发现。该领域面临三大挑战：

数据异构性：基因功能信息分散在文本文献、知识图谱与蛋白质序列等多模态中，单一模态难以捕捉完整生物学语境；
解释性缺失：黑盒模型虽能预测扰动效应，却无法提供生物学家可理解的因果解释；
泛化能力有限：训练数据覆盖的基因组合有限，模型难以泛化到未见过的扰动场景。 AROMA（Augmented Reasoning Over a Multimodal Architecture）针对这些痛点提出，已被ACL 2026主会收录。

章节 03

技术架构：数据构建与多模态编码

AROMA的技术架构包含数据构建、模型推理阶段：

数据阶段：双知识图谱构建

构建两个互补的生物学知识图谱：

Gene-KG：捕获基因间功能关联、调控关系与通路归属；
Path-KG：刻画生物信号通路的层级结构与跨通路交互；同时构建大规模虚拟细胞推理数据集PerturbReason，为证据检索与推理提供基础。

建模阶段：检索增强的多模态编码

当给定基因扰动查询时：

检索相关证据：从知识图谱与文献中检索相关文本证据；
图神经网络编码：用GNN从Gene-KG和Path-KG中提取拓扑特征，捕获基因在生物网络中的结构角色；
蛋白质序列编码：利用ESM-2预训练模型编码蛋白质序列，捕获氨基酸层面功能信息；
跨模态注意力融合：通过交叉注意力模块显式建模扰动基因与目标基因在不同模态间的依赖关系。

这种设计实现"神经-符号"有机融合，结合符号化知识推理与神经网络表示学习能力。

章节 04

技术架构：训练优化策略

AROMA采用两阶段训练策略优化模型：

第一阶段：多模态监督微调（SFT）

在PerturbReason数据集上进行多模态监督学习，学习输入查询到扰动效应预测的基本映射，确保模型掌握基础生物学知识与预测能力。

第二阶段：GRPO强化学习优化

引入Group Relative Policy Optimization（GRPO）进行强化学习微调。GRPO通过组内相对奖励信号优化策略，避免传统PPO算法中critic模型训练不稳定问题。此阶段不仅提升预测精度，更引导模型生成生物学意义上可解释、合理的推理过程，实现"性能-可解释性"双重优化。

章节 05

实验验证与开源贡献

AROMA基于Qwen3-8B基座模型微调，充分利用开源大语言模型的语言理解与生成能力。研究团队已在Hugging Face平台完整开源：

模型权重：blazerye/AROMA；
推理数据集：blazerye/PerturbReason（完整版）；
知识图谱：Gene-KG与Path-KG的完整版本。全面开源策略降低复现门槛，为计算生物学社区提供宝贵基础设施。

章节 06

技术意义与未来展望

技术意义

AROMA对AI for Science领域的启示：

多模态融合新范式：展示文本、图结构与序列数据统一建模的思路，可推广至材料科学、药物发现等领域；
可解释AI实践路径：通过显式证据检索与结构化知识整合，为科学领域可解释预测提供可行方案；
强化学习在科学推理中的应用：GRPO在生物推理任务中的成功应用，拓展RLHF/RLAIF技术在专业领域的应用边界。

未来展望

随着单细胞测序技术普及与空间转录组学发展，虚拟细胞建模有望整合更精细的细胞状态信息。AROMA架构具备良好扩展性，可进一步融合单细胞表达谱、空间位置信息等新兴数据模态，向"数字孪生细胞"终极目标演进。