# 基于异构图神经网络的药物-靶点相互作用预测：加速药物发现的计算平台

> 使用图神经网络在BioSNAP-DTI基准数据集上进行药物-靶点相互作用预测的完整工业级流程，结合分子图特征化和一维CNN蛋白质编码器，实现高精度的DTI二元分类。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-03T21:45:53.000Z
- 最近活动: 2026-06-03T21:55:51.445Z
- 热度: 154.8
- 关键词: 药物发现, 图神经网络, GNN, 药物-靶点相互作用, DTI, 分子图, 蛋白质编码, 深度学习, 生物信息学, 计算生物学
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-babakmamnoon-drug-target-interaction-prediction-on-heterogeneous-graphs-using-gr
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-babakmamnoon-drug-target-interaction-prediction-on-heterogeneous-graphs-using-gr
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Babakmamnoon
- **来源平台**: GitHub
- **原始标题**: Drug-Target-Interaction-Prediction-on-Heterogeneous-Graphs-using-Graph-Neural-Networks
- **原始链接**: https://github.com/Babakmamnoon/Drug-Target-Interaction-Prediction-on-Heterogeneous-Graphs-using-Graph-Neural-Networks
- **发布时间**: 2026年6月
- **Colab notebook**: https://colab.research.google.com/drive/18GwTTIiTozvVw4e1jbSVjC4VJWPB4Rlr

## 研究背景与意义

预测小分子药物是否与蛋白质靶点物理结合——即药物-靶点相互作用(DTI)预测——是计算药物发现中的基础问题。实验性表征DTI对的过程极其缓慢且昂贵：每个新分子实体(NME)的批准成本约18亿美元，耗时9-12年。

高通量计算机筛选候选药物-靶点对可以显著加速这一过程，通过优先选择最有希望的候选进行湿实验验证。传统的DTI预测方法依赖特征工程——如药物的分子指纹(ECFP4)和蛋白质的手工特征(伪氨基酸组成)——输入支持向量机或随机森林。这些方法无法捕捉结构层次，且受限于所选特征的信息含量。

图神经网络(GNN)将药物表示为分子图，其中原子是节点，化学键是边，端到端学习结构表示。当与基于序列的蛋白质编码器和显式交互建模层结合时，GNN在主要DTI基准上达到最先进的性能。

## 数据集：BioSNAP-DTI

BioSNAP-DTI是计算生物学文献中广泛使用的二元DTI分类基准，由斯坦福SNAP实验室(Zitnik et al., 2018)构建，经Huang et al. (Bioinformatics, 2021)预处理。

### 数据集统计

| 属性 | 数值 |
|------|------|
| DTI对总数 | ~27,462 |
| 唯一药物 | 4,510 |
| 唯一蛋白质靶点 | 2,181 |
| 正相互作用 | ~13,830 (50%) |
| 负相互作用 | ~13,632 (50%) |
| 药物表示 | SMILES |
| 蛋白质表示 | 氨基酸序列 |
| 数据来源 | DrugBank 5.0, Stanford SNAP MINER |
| 标准划分 | 训练/验证/测试 ≈ 70/10/20% |

数据直接从MolTrans GitHub仓库获取，提供用于所有已发表比较的标准预划分CSV文件。

### 数据清洗

- 删除SMILES、蛋白质序列或标签缺失的行
- 通过RDKit进行SMILES验证和规范化
- 蛋白质序列验证——仅接受标准20字母氨基酸表
- 蛋白质长度限制在1,200个氨基酸(覆盖>95%的BioSNAP数据，防止内存溢出)

## 方法论

### 药物特征化——分子图

每个药物SMILES字符串被转换为PyTorch Geometric Data对象。特征化使用27维原子特征向量和6维键特征向量，与DrugBAN (Bai et al., 2023)验证的方案一致：

#### 原子特征(27维)

| 特征 | 编码 | 维度 |
|------|------|------|
| 原子类型 | One-hot (13类型+其他) | 13 |
| 杂化方式 | One-hot (SP, SP2, SP3, SP3D, SP3D2, 其他) | 6 |
| 芳香性 | 二元 | 1 |
| 形式电荷 | 整数 | 1 |
| 氢原子总数 | 整数 | 1 |
| 环成员 | 二元 | 1 |
| 手性 | One-hot (4类型) | 4 |

#### 键特征(6维)

键类型(单/双/三/芳香)、共轭、环成员——为无向图双向添加。

### 蛋白质特征化——1D CNN编码

每个蛋白质氨基酸序列被编码为整数张量(词汇量22，最大长度1,200)，通过三分支并行1D CNN处理，核大小分别为3、7和11。

自适应最大池化将每个分支的可变长度序列折叠为固定的256维蛋白质嵌入，同时捕捉：

- 局部二肽模式(核大小3)
- 短程基序(核大小7)
- 中程二级结构信号(核大小11)

这种多尺度设计无需额外参数即可捕获蛋白质序列的多层次特征。

## 模型架构——DTI-GNN

```
药物SMILES          蛋白质序列
    │                    │
    ▼                    ▼
[输入投影]        [嵌入层(128维)]
    │                    │
[ResGCN块×3]    [并行CNN: 核3+7+11]
(BatchNorm+残差)   (自适应最大池化→拼接)
    │                    │
[全局平均池化]    [BatchNorm+全连接(256维)]
[全局最大池化]           │
[拼接→256维药物嵌入]    [256维蛋白质嵌入]
    │                    │
    └──────────┬────────────────────────┘
               ▼
        [双线性注意力模块]
        (成对药物-靶点门控→256维)
               │
        [MLP分类器]
        (256→128→64→2)
        (每层BatchNorm+Dropout)
               │
        [二元DTI预测]
        (相互作用/无相互作用)
```

### 关键设计决策

- **残差连接**: 所有GCN块中的残差连接稳定深层梯度
- **双池化策略**: 平均+最大池化拼接保留原子和极端原子信号
- **双线性注意力**: 显式建模成对药物-靶点特征交互，而非简单拼接
- **并行CNN核**: 不同大小的核在无需额外参数的情况下捕获多尺度蛋白质基序

### 模型参数

可训练参数总数: ~120万

## 训练策略

| 超参数 | 数值 |
|--------|------|
| 优化器 | Adam |
| 学习率 | 5×10⁻⁴ |
| 权重衰减 | 1×10⁻⁵ |
| 批量大小 | 64 |
| 最大轮数 | 50 |
| 学习率调度 | ReduceLROnPlateau (factor=0.5, patience=5, mode=max AUROC) |
| 早停 | patience=10轮(验证AUROC) |
| 损失函数 | 交叉熵 |
| 梯度裁剪 | 范数1.0 |
| Dropout | 0.3 |

## 实验结果

### 测试集性能

| 指标 | 数值 |
|------|------|
| AUROC | 0.951 |
| AUPRC | 0.948 |
| 准确率 | 0.892 |
| F1分数 | 0.891 |
| 精确率 | 0.888 |
| 召回率 | 0.894 |
| MCC | 0.784 |

### 5折交叉验证

| 折数 | AUROC | AUPRC | 准确率 | F1 | MCC |
|------|-------|-------|--------|-----|-----|
| Fold 1 | 0.948 | 0.945 | 0.889 | 0.888 | 0.778 |
| Fold 2 | 0.953 | 0.950 | 0.894 | 0.893 | 0.788 |
| Fold 3 | 0.949 | 0.946 | 0.890 | 0.889 | 0.780 |
| Fold 4 | 0.952 | 0.949 | 0.893 | 0.892 | 0.786 |
| Fold 5 | 0.950 | 0.947 | 0.891 | 0.890 | 0.782 |
| **平均** | **0.950** | **0.947** | **0.891** | **0.890** | **0.783** |
| **标准差** | **0.002** | **0.002** | **0.002** | **0.002** | **0.004** |

低标准差表明模型在不同数据划分下表现稳定，具有良好的泛化能力。

### 文献基准对比

| 方法 | 年份 | AUROC | AUPRC |
|------|------|-------|-------|
| DeepConv-DTI | 2019 | 0.910 | 0.905 |
| MolTrans | 2021 | 0.935 | 0.931 |
| DeepPurpose | 2020 | 0.940 | 0.936 |
| TransformerCPI | 2021 | 0.942 | 0.938 |
| DrugBAN | 2023 | 0.948 | 0.945 |
| **DTI-GNN (本项目)** | 2024 | **0.951** | **0.948** |

本项目在BioSNAP-DTI基准上达到最先进的性能，AUROC和AUPRC均超越此前最佳方法。

## 可视化分析

项目提供丰富的可视化工具：

- **指标雷达图**: 多维度性能概览
- **ROC/PRC曲线**: 分类器性能可视化
- **混淆矩阵**: 预测类别分布
- **分子级预测可视化**: 单个药物-靶点对的预测结果展示

## 技术亮点与启示

### 异构图学习

项目展示了如何处理异构数据类型(分子图+蛋白质序列)，通过专门的编码器将不同模态映射到统一嵌入空间，再用注意力机制建模跨模态交互。这种架构设计对多模态学习具有普遍参考价值。

### 多尺度特征提取

并行CNN核设计体现了多尺度特征提取的思想——不同大小的感受野捕获不同层次的蛋白质结构信息。这种设计可推广到其他序列建模任务。

### 双线性注意力机制

双线性注意力模块显式建模药物和蛋白质特征之间的成对交互，比简单拼接或点积更能捕捉复杂的相互作用模式。这种设计在推荐系统、知识图谱等领域也有应用价值。

### 工业级实践

项目包含完整的工业级实践：数据清洗、早停、学习率调度、梯度裁剪、交叉验证、基准对比。这些最佳实践对于将研究代码转化为生产系统至关重要。

## 应用前景

该技术可应用于：

- **药物重定位**: 预测现有药物的新靶点，发现新适应症
- **副作用预测**: 识别药物与非预期靶点的相互作用
- **个性化医疗**: 预测患者特异性药物反应
- **天然产物筛选**: 从天然化合物库中识别潜在药物候选

## 结语

本项目提供了一个完整、工业级的异构GNN流程，用于药物-靶点相互作用预测。通过在BioSNAP-DTI基准上达到最先进的性能，展示了图神经网络在药物发现领域的巨大潜力。对于从事计算生物学、药物发现、图神经网络的科研人员和工程师，本项目提供了宝贵的技术参考和实现基础。