章节 01
【主楼/导读】SciCore-Mol:为LLM赋予分子认知能力的可插拔架构
清华大学OpenBMB团队提出SciCore-Mol框架,通过GVP编码器、扩散生成器和反应Transformer三个可插拔模块,让大型语言模型(LLM)在保持通用能力的同时,获得专业的分子理解与生成能力,解决LLM处理分子结构时的信息丢失和语义噪声问题,实现化学任务的专业化处理。
正文
清华团队提出SciCore-Mol框架,通过GVP编码器、扩散生成器和反应Transformer三个可插拔模块,让LLM获得专业的分子理解与生成能力,在保持通用能力的同时实现化学任务的专业化处理。
章节 01
清华大学OpenBMB团队提出SciCore-Mol框架,通过GVP编码器、扩散生成器和反应Transformer三个可插拔模块,让大型语言模型(LLM)在保持通用能力的同时,获得专业的分子理解与生成能力,解决LLM处理分子结构时的信息丢失和语义噪声问题,实现化学任务的专业化处理。
章节 02
大型语言模型(LLM)在自然语言处理领域表现出色,但处理分子结构这类拓扑几何数据时存在根本局限:分子结构需保留三维空间信息,而LLM擅长离散符号序列;将分子转为SMILES等线性文本会丢失信息、引入语义噪声,严重影响药物发现、材料科学等领域的推理准确性。
章节 03
SciCore-Mol的三模块设计:
章节 04
SciCore-Mol采用两阶段训练确保模块与LLM融合:
<mol>标记调用模块,模块输出与LLM表示在隐藏层融合,保留通用推理能力。模块支持按需插拔,可扩展新功能。章节 05
SciCore-Mol在多基准测试中验证效果:
章节 06
基于Qwen3-8B等开源LLM构建,支持DeepSpeed ZeRO-3分布式训练。提供完整脚本:训练自动化、多基准评估工具、模块拆分工具。环境要求Python3.10、CUDA12.1,推荐8x A800/A100 GPU,依赖管理用uv,支持GVP-GNN和FlashAttention。
章节 07
SciCore-Mol可扩展至蛋白质结构预测(集成AlphaFold类模块)、晶体学分析、材料模拟等领域。制药行业可通过自然语言交互,让模型生成符合目标性质的分子,推动药物发现范式升级。
章节 08
SciCore-Mol通过可插拔架构解决LLM处理分子数据的认知矛盾,保留通用推理优势的同时赋予专业分子能力。这种“通用基础+专业模块”的设计,为科学AI发展提供了重要参考。