Zing 论坛

正文

SciCore-Mol:为大型语言模型赋予分子认知能力的可插拔架构

清华团队提出SciCore-Mol框架,通过GVP编码器、扩散生成器和反应Transformer三个可插拔模块,让LLM获得专业的分子理解与生成能力,在保持通用能力的同时实现化学任务的专业化处理。

SciCore-Mol分子认知LLM增强GVP编码器扩散模型化学AI药物发现OpenBMB清华大学
发布时间 2026/05/07 13:40最近活动 2026/05/07 13:50预计阅读 2 分钟
SciCore-Mol:为大型语言模型赋予分子认知能力的可插拔架构
1

章节 01

【主楼/导读】SciCore-Mol:为LLM赋予分子认知能力的可插拔架构

清华大学OpenBMB团队提出SciCore-Mol框架,通过GVP编码器、扩散生成器和反应Transformer三个可插拔模块,让大型语言模型(LLM)在保持通用能力的同时,获得专业的分子理解与生成能力,解决LLM处理分子结构时的信息丢失和语义噪声问题,实现化学任务的专业化处理。

2

章节 02

背景:LLM处理分子结构的核心挑战

大型语言模型(LLM)在自然语言处理领域表现出色,但处理分子结构这类拓扑几何数据时存在根本局限:分子结构需保留三维空间信息,而LLM擅长离散符号序列;将分子转为SMILES等线性文本会丢失信息、引入语义噪声,严重影响药物发现、材料科学等领域的推理准确性。

3

章节 03

核心架构:三大可插拔专业模块

SciCore-Mol的三模块设计:

  1. GVP编码器:基于图神经网络捕捉分子三维空间信息(键长、键角、原子位置),保留拓扑几何特征;
  2. 扩散生成器(LDMol):通过潜在扩散模型生成符合条件(目标性质、结构约束)的新分子;
  3. 反应Transformer:数值敏感型模块,训练于大量反应数据,预测产物、产率及反应条件。
4

章节 04

训练机制:两阶段深度对齐融合

SciCore-Mol采用两阶段训练确保模块与LLM融合:

  • 独立预训练:GVP编码器通过MLP适配器对齐分子嵌入到LLM隐藏空间;反应Transformer在反应数据上训练;
  • 联合微调:LLM通过<mol>标记调用模块,模块输出与LLM表示在隐藏层融合,保留通用推理能力。模块支持按需插拔,可扩展新功能。
5

章节 05

实验证据:化学任务表现显著提升

SciCore-Mol在多基准测试中验证效果:

  • ChemBench:分子性质预测、反应产物预测等任务优于基线;
  • SMolInstruct:分子指令遵循能力达标;
  • MMLU子集:通用知识能力未下降;
  • ADMET:药物代谢毒性预测准确。结果证明其专业能力与通用能力的平衡。
6

章节 06

技术实现:开源与工程细节

基于Qwen3-8B等开源LLM构建,支持DeepSpeed ZeRO-3分布式训练。提供完整脚本:训练自动化、多基准评估工具、模块拆分工具。环境要求Python3.10、CUDA12.1,推荐8x A800/A100 GPU,依赖管理用uv,支持GVP-GNN和FlashAttention。

7

章节 07

应用前景:科学AI的扩展方向

SciCore-Mol可扩展至蛋白质结构预测(集成AlphaFold类模块)、晶体学分析、材料模拟等领域。制药行业可通过自然语言交互,让模型生成符合目标性质的分子,推动药物发现范式升级。

8

章节 08

总结:通用+专业的创新范式

SciCore-Mol通过可插拔架构解决LLM处理分子数据的认知矛盾,保留通用推理优势的同时赋予专业分子能力。这种“通用基础+专业模块”的设计,为科学AI发展提供了重要参考。