Zing 论坛

正文

药物-靶点相互作用预测:分子指纹与图神经网络的对比研究

基于ChEMBL数据库的EGFR抑制剂活性预测项目,对比Morgan分子指纹+随机森林与图神经网络两种方法,使用RDKit、PyTorch Geometric和SHAP实现完整的机器学习流程。

药物发现药物-靶点相互作用分子指纹图神经网络EGFRChEMBLRDKit机器学习生物信息学
发布时间 2026/05/27 12:43最近活动 2026/05/27 12:52预计阅读 2 分钟
药物-靶点相互作用预测:分子指纹与图神经网络的对比研究
1

章节 01

导读:药物-靶点相互作用预测方法对比研究核心总结

本研究聚焦于表皮生长因子受体(EGFR)抑制剂活性预测,基于ChEMBL数据库数据,对比Morgan分子指纹+随机森林与图神经网络(GNN)两种方法。使用RDKit、PyTorch Geometric、SHAP等工具实现完整机器学习流程,结果显示在当前数据规模下,传统方法表现更优。

2

章节 02

研究背景:DTI预测与EGFR靶点的重要性

药物-靶点相互作用(DTI)预测是药物发现领域核心问题,可加速新药研发、降低实验成本。本项目针对EGFR抑制剂活性预测,EGFR作为癌症治疗关键靶点,其抑制剂研发对肿瘤治疗具有重要意义。

3

章节 03

数据集构建:ChEMBL数据的获取与清洗

数据来源于ChEMBL数据库(CHEMBL203),原始记录17723条,清洗后得到8728个化合物(活性89%,非活性11%)。数据特征包括平均pIC50 7.23、平均分子量488.1 Da。清洗流程:ChEMBL API获取→IC50提取→pIC50转换→二分类标签生成。

4

章节 04

模型方法对比:传统机器学习与GNN的差异

方法1:Morgan指纹+随机森林

  • 分子表示:RDKit生成Morgan指纹(半径2,长度2048位二进制向量)
  • 模型:随机森林(200棵树,class_weight='balanced',5折交叉验证)
  • 可解释性:SHAP分析特征重要性

方法2:图神经网络

  • 分子表示:原子为节点(15维特征)、化学键为边
  • 模型:3层GCN,全局平均池化,Adam优化器,训练50轮
5

章节 05

实验结果:随机森林性能优于GNN的原因分析

结果显示随机森林ROC-AUC为0.9694,GNN为0.8887。原因包括:

  1. 类别不平衡:RF用class_weight缓解,GNN未采用;
  2. 数据规模:8728样本对GNN较小;
  3. GNN训练未收敛(50轮后AUC仍上升);
  4. Morgan指纹在中小数据集更有效。
6

章节 06

技术栈与项目结构

工具:RDKit(分子处理)、scikit-learn(RF实现)、PyTorch/PyTorch Geometric(GNN)、ChEMBL API(数据获取)、SHAP(可解释性)等。 项目结构:包含data(原始/处理后)、notebooks(6个阶段脚本)、src(功能函数)、models(模型文件)等目录。

7

章节 07

对药物发现研究的启示

  1. 方法选择需考虑数据规模:中小数据集传统方法更优;
  2. 类别不平衡需处理:生物活性数据常见问题;
  3. 可解释性重要:SHAP分析指导化合物设计;
  4. 完整流程价值:利于可重复研究。
8

章节 08

研究总结

本项目提供完整EGFR抑制剂活性预测流程,对比两种方法发现:尽管GNN理论上适合复杂结构学习,但在当前数据下,Morgan指纹+随机森林表现更优。提示研究者应基于实际问题选择方法,而非盲目追新。