# 药物-靶点相互作用预测：分子指纹与图神经网络的对比研究

> 基于ChEMBL数据库的EGFR抑制剂活性预测项目，对比Morgan分子指纹+随机森林与图神经网络两种方法，使用RDKit、PyTorch Geometric和SHAP实现完整的机器学习流程。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-27T04:43:11.000Z
- 最近活动: 2026-05-27T04:52:08.798Z
- 热度: 161.8
- 关键词: 药物发现, 药物-靶点相互作用, 分子指纹, 图神经网络, EGFR, ChEMBL, RDKit, 机器学习, 生物信息学
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-vishnuprabhauvaraj-dti-prediction
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-vishnuprabhauvaraj-dti-prediction
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Vishnuprabha Uvaraj
- **来源平台**: GitHub
- **原始标题**: dti-prediction
- **原始链接**: https://github.com/VishnuPrabhaUvaraj/dti-prediction
- **发布时间**: 2026年5月27日

---

## 研究背景

药物-靶点相互作用（Drug-Target Interaction, DTI）预测是药物发现领域的核心问题之一。准确预测化合物与特定蛋白质靶点的结合活性，可以显著加速新药研发进程，降低实验筛选成本。

本项目聚焦于表皮生长因子受体（EGFR）抑制剂的活性预测。EGFR是癌症治疗中的重要靶点，开发高选择性、高活性的EGFR抑制剂对于肿瘤治疗具有重要意义。

---

## 数据集构建

### 数据来源

从ChEMBL数据库（CHEMBL203）获取EGFR相关的生物活性数据：

- **原始记录数**: 17,723条
- **清洗后化合物数**: 8,728个
- **活性化合物**（IC50 ≤ 1000 nM）: 7,767个（89%）
- **非活性化合物**（IC50 ≥ 10000 nM）: 961个（11%）

### 数据特征

- **平均pIC50**: 7.23
- **平均分子量**: 488.1 Da

数据清洗流程：ChEMBL API获取原始数据 → IC50数据提取 → pIC50转换 → 二分类标签生成

---

## 模型方法对比

项目实现了两种截然不同的分子表示学习方法，并进行系统对比：

### 方法1：Morgan分子指纹 + 随机森林

#### 分子表示

使用RDKit生成Morgan指纹（圆形指纹）：
- **指纹半径**: 2
- **指纹长度**: 2048位
- **编码方式**: 二进制向量表示分子子结构

#### 模型配置

- **算法**: 随机森林（Random Forest）
- **决策树数量**: 200棵
- **类别平衡**: 使用class_weight='balanced'处理类别不平衡
- **验证策略**: 5折交叉验证

#### 可解释性分析

集成SHAP（SHapley Additive exPlanations）进行特征重要性分析，识别对预测贡献最大的分子子结构。

### 方法2：图神经网络（GNN）

#### 分子图表示

将分子转换为图结构：
- **节点**: 原子（15维特征向量）
- **边**: 化学键
- **特征维度**: 原子类型、电荷、杂化方式等

#### 模型架构

- **基础架构**: 图卷积网络（GCN）
- **层数**: 3层图卷积
- **池化方式**: 全局平均池化（Global Mean Pooling）
- **可训练参数**: 31,106个
- **优化器**: Adam
- **训练轮数**: 50轮

---

## 实验结果对比

| 模型 | ROC-AUC | 方法描述 |
|------|---------|----------|
| 随机森林 | 0.9694 | Morgan指纹（2048位） |
| 图神经网络 | 0.8887 | 图卷积网络 |

### 结果分析

**随机森林显著优于GNN**，主要原因包括：

1. **类别不平衡**: 数据集中89%为活性化合物，随机森林的class_weight='balanced'策略有效缓解了这一问题，而GNN未采用类别平衡策略

2. **数据规模限制**: 8,728个样本对于GNN来说相对较小，深度学习模型通常需要更大规模的数据才能充分发挥优势

3. **训练不足**: GNN在50轮训练后AUC仍在上升，表明模型尚未收敛，增加训练轮数可能提升性能

4. **特征工程优势**: Morgan指纹是药物化学领域验证多年的分子表示方法，对于中小规模数据集往往比端到端学习的图表示更有效

---

## 技术栈与工具

| 工具 | 用途 |
|------|------|
| RDKit | 分子特征化与化学信息学处理 |
| scikit-learn | 随机森林实现与评估指标 |
| PyTorch | GNN模型训练框架 |
| PyTorch Geometric | 图卷积层实现 |
| ChEMBL API | 生物活性数据获取 |
| SHAP | 模型可解释性分析 |
| pandas, matplotlib | 数据分析与可视化 |

---

## 项目结构

```
dti-prediction/
├── README.md
├── environment.yml          # Conda环境配置
├── data/
│   ├── raw/                  # ChEMBL原始下载数据
│   └── processed/            # 清洗后的数据集
├── notebooks/                # 6个阶段的可执行脚本
│   ├── 01_data_download.py
│   ├── 02_data_cleaning.py
│   ├── 03_eda.py
│   ├── 04_random_forest.py
│   ├── 05_gnn_model.py
│   └── 06_comparison.py
├── src/
│   ├── fingerprints.py       # Morgan指纹生成函数
│   ├── mol_graph.py          # SMILES到图的转换器
│   └── gnn_model.py          # GNN架构定义
├── models/                   # 保存的模型文件
├── figures/                  # 7个输出图表
└── logs/                     # 结果CSV文件
```

---

## 使用方式

### 环境配置

```bash
conda env create -f environment.yml
conda activate dti-project
```

### 运行完整流程

按顺序执行6个阶段：

```bash
python notebooks/01_data_download.py      # 数据下载
python notebooks/02_data_cleaning.py        # 数据清洗
python notebooks/03_eda.py                  # 探索性分析
python notebooks/04_random_forest.py        # 随机森林建模
python notebooks/05_gnn_model.py            # GNN建模
python notebooks/06_comparison.py           # 结果对比
```

---

## 可视化输出

项目生成以下分析图表：

- **model_comparison.png**: 两模型性能对比
- **gnn_training.png**: GNN训练过程曲线
- **shap_rf.png**: 随机森林的SHAP解释图
- **eda_plots.png**: 探索性数据分析可视化

---

## 对药物发现研究的启示

### 1. 方法选择需考虑数据规模

本研究表明，对于中小规模的分子数据集，传统的分子指纹+集成学习方法可能比复杂的深度学习模型更具优势。研究者应根据数据规模合理选择方法。

### 2. 类别不平衡是常见问题

生物活性数据通常存在严重的类别不平衡（活性化合物远多于非活性），在建模时必须采用适当的处理策略。

### 3. 可解释性的重要性

SHAP分析不仅能帮助理解模型决策，还能为药物化学家提供关于关键分子特征的洞察，指导后续化合物设计。

### 4. 完整流程的价值

项目展示了从数据获取到模型对比的完整流程，这种系统化的方法论对于 reproducible research 至关重要。

---

## 总结

本项目提供了一个完整的EGFR抑制剂活性预测流程，通过对比传统机器学习方法与图神经网络，为药物发现领域的研究者提供了有价值的参考。尽管GNN在复杂结构学习上具有理论优势，但在当前数据规模和类别分布下，Morgan指纹+随机森林的组合展现了更优的预测性能。这一发现提醒我们，方法选择应基于实际问题特点，而非盲目追求最新技术。