章节 01
导读:药物-靶点相互作用预测方法对比研究核心总结
本研究聚焦于表皮生长因子受体(EGFR)抑制剂活性预测,基于ChEMBL数据库数据,对比Morgan分子指纹+随机森林与图神经网络(GNN)两种方法。使用RDKit、PyTorch Geometric、SHAP等工具实现完整机器学习流程,结果显示在当前数据规模下,传统方法表现更优。
正文
基于ChEMBL数据库的EGFR抑制剂活性预测项目,对比Morgan分子指纹+随机森林与图神经网络两种方法,使用RDKit、PyTorch Geometric和SHAP实现完整的机器学习流程。
章节 01
本研究聚焦于表皮生长因子受体(EGFR)抑制剂活性预测,基于ChEMBL数据库数据,对比Morgan分子指纹+随机森林与图神经网络(GNN)两种方法。使用RDKit、PyTorch Geometric、SHAP等工具实现完整机器学习流程,结果显示在当前数据规模下,传统方法表现更优。
章节 02
药物-靶点相互作用(DTI)预测是药物发现领域核心问题,可加速新药研发、降低实验成本。本项目针对EGFR抑制剂活性预测,EGFR作为癌症治疗关键靶点,其抑制剂研发对肿瘤治疗具有重要意义。
章节 03
数据来源于ChEMBL数据库(CHEMBL203),原始记录17723条,清洗后得到8728个化合物(活性89%,非活性11%)。数据特征包括平均pIC50 7.23、平均分子量488.1 Da。清洗流程:ChEMBL API获取→IC50提取→pIC50转换→二分类标签生成。
章节 04
方法1:Morgan指纹+随机森林
方法2:图神经网络
章节 05
结果显示随机森林ROC-AUC为0.9694,GNN为0.8887。原因包括:
章节 06
工具:RDKit(分子处理)、scikit-learn(RF实现)、PyTorch/PyTorch Geometric(GNN)、ChEMBL API(数据获取)、SHAP(可解释性)等。 项目结构:包含data(原始/处理后)、notebooks(6个阶段脚本)、src(功能函数)、models(模型文件)等目录。
章节 07
章节 08
本项目提供完整EGFR抑制剂活性预测流程,对比两种方法发现:尽管GNN理论上适合复杂结构学习,但在当前数据下,Morgan指纹+随机森林表现更优。提示研究者应基于实际问题选择方法,而非盲目追新。