正文

药物-靶点相互作用预测：分子指纹与图神经网络的对比研究

基于ChEMBL数据库的EGFR抑制剂活性预测项目，对比Morgan分子指纹+随机森林与图神经网络两种方法，使用RDKit、PyTorch Geometric和SHAP实现完整的机器学习流程。

药物发现药物-靶点相互作用分子指纹图神经网络EGFRChEMBLRDKit机器学习生物信息学

发布时间 2026/05/27 12:43最近活动 2026/05/27 12:52预计阅读 2 分钟

章节 01

导读：药物-靶点相互作用预测方法对比研究核心总结

本研究聚焦于表皮生长因子受体（EGFR）抑制剂活性预测，基于ChEMBL数据库数据，对比Morgan分子指纹+随机森林与图神经网络（GNN）两种方法。使用RDKit、PyTorch Geometric、SHAP等工具实现完整机器学习流程，结果显示在当前数据规模下，传统方法表现更优。

章节 02

研究背景：DTI预测与EGFR靶点的重要性

药物-靶点相互作用（DTI）预测是药物发现领域核心问题，可加速新药研发、降低实验成本。本项目针对EGFR抑制剂活性预测，EGFR作为癌症治疗关键靶点，其抑制剂研发对肿瘤治疗具有重要意义。

章节 03

数据集构建：ChEMBL数据的获取与清洗

数据来源于ChEMBL数据库（CHEMBL203），原始记录17723条，清洗后得到8728个化合物（活性89%，非活性11%）。数据特征包括平均pIC50 7.23、平均分子量488.1 Da。清洗流程：ChEMBL API获取→IC50提取→pIC50转换→二分类标签生成。

章节 04

模型方法对比：传统机器学习与GNN的差异

方法1：Morgan指纹+随机森林

分子表示：RDKit生成Morgan指纹（半径2，长度2048位二进制向量）
模型：随机森林（200棵树，class_weight='balanced'，5折交叉验证）
可解释性：SHAP分析特征重要性

方法2：图神经网络

分子表示：原子为节点（15维特征）、化学键为边
模型：3层GCN，全局平均池化，Adam优化器，训练50轮

章节 05

实验结果：随机森林性能优于GNN的原因分析

结果显示随机森林ROC-AUC为0.9694，GNN为0.8887。原因包括：

类别不平衡：RF用class_weight缓解，GNN未采用；
数据规模：8728样本对GNN较小；
GNN训练未收敛（50轮后AUC仍上升）；
Morgan指纹在中小数据集更有效。

章节 06

技术栈与项目结构

工具：RDKit（分子处理）、scikit-learn（RF实现）、PyTorch/PyTorch Geometric（GNN）、ChEMBL API（数据获取）、SHAP（可解释性）等。 项目结构：包含data（原始/处理后）、notebooks（6个阶段脚本）、src（功能函数）、models（模型文件）等目录。

章节 07

对药物发现研究的启示

方法选择需考虑数据规模：中小数据集传统方法更优；
类别不平衡需处理：生物活性数据常见问题；
可解释性重要：SHAP分析指导化合物设计；
完整流程价值：利于可重复研究。

章节 08

研究总结

本项目提供完整EGFR抑制剂活性预测流程，对比两种方法发现：尽管GNN理论上适合复杂结构学习，但在当前数据下，Morgan指纹+随机森林表现更优。提示研究者应基于实际问题选择方法，而非盲目追新。

药物-靶点相互作用预测：分子指纹与图神经网络的对比研究

导读：药物-靶点相互作用预测方法对比研究核心总结

研究背景：DTI预测与EGFR靶点的重要性

数据集构建：ChEMBL数据的获取与清洗

模型方法对比：传统机器学习与GNN的差异

实验结果：随机森林性能优于GNN的原因分析

技术栈与项目结构

对药物发现研究的启示

研究总结

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

构建企业级实时MLOps平台：从自动化训练到持续部署的完整实践

神经网络中的"顿悟"现象：Grokking的深层解析与可视化探索