# AROMA：融合多模态推理与强化学习的虚拟细胞基因扰动预测新框架

> AROMA是ACL 2026收录的多模态虚拟细胞建模框架，通过整合文本证据、图拓扑结构与蛋白质序列，结合检索增强策略与GRPO强化学习，实现基因扰动效应的高精度预测与可解释性分析。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-23T06:13:25.000Z
- 最近活动: 2026-04-23T06:53:43.495Z
- 热度: 143.3
- 关键词: 虚拟细胞建模, 基因扰动预测, 多模态学习, 知识图谱, 强化学习, GRPO, 计算生物学, ACL2026, AI4Science
- 页面链接: https://www.zingnex.cn/forum/thread/aroma-19cd553c
- Canonical: https://www.zingnex.cn/forum/thread/aroma-19cd553c
- Markdown 来源: ingested_event

---

## 研究背景与核心挑战

在生物医学研究领域，基因扰动实验是理解细胞功能与疾病机制的核心手段。传统 wet-lab 实验不仅成本高昂、周期漫长，且难以系统性地探索海量基因组合的影响。虚拟细胞建模（Virtual Cell Modeling）作为计算生物学的前沿方向，旨在通过机器学习模拟细胞对不同基因扰动的响应，从而大幅降低实验成本并加速药物靶点发现。

然而，这一领域长期面临三个根本性挑战：

1. **数据异构性**：基因功能信息分散在文本文献、知识图谱与蛋白质序列等多种模态中，单一模态难以捕捉完整的生物学语境
2. **解释性缺失**：黑盒模型虽能预测扰动效应，却无法提供生物学家可理解的因果解释
3. **泛化能力有限**：训练数据覆盖的基因组合有限，模型难以泛化到未见过的扰动场景

AROMA（Augmented Reasoning Over a Multimodal Architecture）正是针对这些痛点提出的系统性解决方案，该工作已被ACL 2026主会收录，标志着自然语言处理技术与计算生物学的深度交叉融合。

## 技术架构：三阶段多模态融合

AROMA的整体架构分为数据构建、模型推理与训练优化三个阶段，形成完整的端到端工作流。

### 数据阶段：双知识图谱构建

研究团队首先构建了两个互补的生物学知识图谱：

- **Gene-KG（基因知识图谱）**：捕获基因间的功能关联、调控关系与通路归属
- **Path-KG（通路知识图谱）**：刻画生物信号通路的层级结构与跨通路交互

同时，团队还构建了大规模虚拟细胞推理数据集PerturbReason，为后续的证据检索与推理提供数据基础。这种结构化知识表示使得模型能够利用人类数十年积累的生物学先验知识，而非仅从原始序列中学习模式。

### 建模阶段：检索增强的多模态编码

AROMA的核心创新在于其检索增强的多模态编码策略。当给定一个基因扰动查询时，系统首先：

1. **检索相关证据**：从知识图谱与文献中检索与当前扰动相关的文本证据
2. **图神经网络编码**：使用GNN从Gene-KG与Path-KG中提取拓扑特征，捕获基因在生物网络中的结构角色
3. **蛋白质序列编码**：利用ESM-2（Evolutionary Scale Modeling）预训练模型编码蛋白质序列，捕获氨基酸层面的功能信息
4. **跨模态注意力融合**：通过交叉注意力模块显式建模扰动基因与目标基因在不同模态间的依赖关系

这种设计使得模型能够同时利用符号化的知识推理与神经网络的表示学习能力，实现"神经-符号"的有机融合。

### 训练阶段：SFT与GRPO两阶段优化

AROMA采用创新的两阶段训练策略：

**第一阶段：多模态监督微调（SFT）**

模型首先在PerturbReason数据集上进行多模态监督学习，学习从输入查询到扰动效应预测的基本映射。这一阶段确保模型掌握基础的生物学知识与预测能力。

**第二阶段：GRPO强化学习优化**

在SFT基础上，AROMA进一步引入Group Relative Policy Optimization（GRPO）进行强化学习微调。GRPO是近期在大语言模型后训练领域取得显著成效的算法，其核心思想是通过组内相对奖励信号优化策略，避免传统PPO算法中critic模型的训练不稳定问题。

在AROMA中，GRPO不仅提升了预测精度，更重要的是引导模型生成生物学意义上可解释、合理的推理过程。这一设计体现了"性能-可解释性"的双重优化目标。

## 实验验证与开源贡献

AROMA基于Qwen3-8B基座模型进行微调，充分利用了开源大语言模型的强大语言理解与生成能力。研究团队已在Hugging Face平台完整开源：

- **模型权重**：blazerye/AROMA
- **推理数据集**：blazerye/PerturbReason（完整版）
- **知识图谱**：Gene-KG与Path-KG的完整版本

这种全面开源的策略极大降低了后续研究的复现门槛，为计算生物学社区提供了宝贵的基础设施。

## 技术意义与未来展望

AROMA的技术路线对AI for Science领域具有重要启示：

1. **多模态融合的新范式**：展示了如何将文本、图结构与序列数据统一建模，这一思路可推广至材料科学、药物发现等其他科学领域
2. **可解释AI的实践路径**：通过显式证据检索与结构化知识整合，AROMA为科学领域的可解释预测提供了可行方案
3. **强化学习在科学推理中的应用**：GRPO在生物推理任务中的成功应用，拓展了RLHF/RLAIF技术在专业领域的应用边界

未来，随着单细胞测序技术的普及与空间转录组学的发展，虚拟细胞建模有望整合更精细的细胞状态信息。AROMA的架构设计具备良好的扩展性，可进一步融合单细胞表达谱、空间位置信息等新兴数据模态，向着"数字孪生细胞"的终极目标持续演进。