Zing 论坛

正文

用图神经网络预测分子性质:从SMILES到溶解度的端到端平台

一个完整的分子性质预测平台,将分子表示为图结构,使用GCN、GraphSAGE和GIN三种架构进行对比,并集成可解释AI和REST API部署。

图神经网络分子性质预测GNN药物发现可解释AIPyTorch GeometricGNNExplainerSMILES溶解度预测机器学习
发布时间 2026/06/13 05:13最近活动 2026/06/13 05:21预计阅读 2 分钟
用图神经网络预测分子性质:从SMILES到溶解度的端到端平台
1

章节 01

导读:用图神经网络预测分子溶解度的端到端平台

这个开源项目提供完整端到端平台,将分子表示为图结构,对比GCN、GraphSAGE、GIN三种GNN架构预测水溶性(药物研发关键性质),集成可解释AI(GNNExplainer)和生产级部署(FastAPI+React),解决传统机器学习处理分子拓扑结构的难题。

2

章节 02

背景:分子需用图结构表示的原因

传统机器学习处理分子数据的核心难题:分子非表格数据,拓扑结构(原子连接方式、环、分支)决定化学性质。GNN将原子建模为节点、化学键为边,保留拓扑结构同时学习性质,项目聚焦水溶性预测(40%候选药物因溶解度失败)。

3

章节 03

方法:项目架构与三种GNN模型对比

工作流程:SMILES字符串→RDKit解析→图构建→GNN模型→预测→GNNExplainer解释。

三种GNN架构

  1. GCN:聚合邻居节点特征更新自身表示;
  2. GraphSAGE:采样邻居并学习聚合函数(均值/LSTM/池化);
  3. GIN:基于图同构测试理论,表达能力等同于Weisfeiler-Lehman算法,捕捉细微结构差异。
4

章节 04

证据:GIN模型在ESOL数据集的压倒性优势

ESOL数据集(1128个分子)测试结果:

模型 MAE RMSE
GCN 1.4526 1.8407
GraphSAGE 1.4160 1.7666
GIN 0.6876 0.8566

GIN误差不到其他模型一半,被选为生产主模型。

5

章节 05

可解释AI:GNNExplainer让预测透明化

集成GNNExplainer提供:

  1. 输出水溶性对数值;
  2. 标记关键原子;
  3. 热力图展示原子重要性;
  4. 高亮关键子结构(如羟基提升溶解度,疏水碳链降低)。帮助理解模型并提供化学洞察,适用于高风险领域。
6

章节 06

生产部署:FastAPI+React全栈解决方案

后端API(FastAPI)

  • GET /health:健康检查;
  • POST /predict:输入SMILES返回溶解度;
  • POST /visualize:生成2D分子结构;
  • POST /explain:返回预测及解释可视化;
  • POST /analyze:综合端点。

前端界面(React+Vite):支持输入SMILES预测、查看结构、解释图、浏览基准结果。

7

章节 07

应用场景与未来发展方向

应用

  • 药物发现:筛选溶解度问题分子,节省成本;
  • 材料科学:扩展至毒性、生物利用度等预测。

未来方向

  • 实时分子手绘界面;
  • 更多数据集扩展;
  • 超参数优化;
  • Docker云部署;
  • 模型监控分析。

结语:项目改变分子科学范式,为AI+化学提供工具链,选择适配数据结构的模型(如GIN)是关键。