# 酪氨酸酶抑制剂数据集：1,725个实验验证化合物助力AI药物发现

> 一个精心整理的多源数据集，包含1,725个酪氨酸酶抑制剂的实验IC₅₀值，适用于QSAR建模和机器学习应用，为美白药物和农业抗真菌剂研发提供高质量数据基础。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-12T14:46:12.000Z
- 最近活动: 2026-06-12T14:50:52.316Z
- 热度: 163.9
- 关键词: 酪氨酸酶抑制剂, QSAR建模, 机器学习, 药物发现, ChEMBL, BindingDB, 分子描述符, IC50, 美白药物, 抗真菌剂
- 页面链接: https://www.zingnex.cn/forum/thread/1-725ai
- Canonical: https://www.zingnex.cn/forum/thread/1-725ai
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Reza Farokhi (Islamic Azad University, Kerman, Iran)
- **来源平台**: GitHub
- **原始标题**: tyrosinase-inhibitors-dataset
- **原始链接**: https://github.com/reza-farrokhi/tyrosinase-inhibitors-dataset
- **发布时间**: 2026年6月
- **数据集DOI**: 10.5281/zenodo.20584594
- **许可证**: CC BY 4.0

## 数据集概述

这是一个经过精心整理的多源数据集，收录了1,725个酪氨酸酶抑制剂的实验IC₅₀值，专为QSAR（定量构效关系）建模和机器学习应用而设计。数据集整合了ChEMBL 37和BindingDB（2026年6月版）两大权威数据库的数据，涵盖了真菌酪氨酸酶（CHEMBL3318）和人酪氨酸酶（CHEMBL1973）两种关键靶点。

酪氨酸酶是黑色素合成的关键酶，在化妆品美白和农业抗真菌领域具有重要应用价值。该数据集为研究人员提供了高质量的基准数据，可用于训练预测模型，加速新型抑制剂的发现。

## 数据规模与质量指标

数据集经过严格筛选和验证，主要统计指标如下：

| 指标 | 数值 |
|------|------|
| 总化合物数 | 1,725个 |
| 符合Lipinski规则 | 1,438个（83.4%） |
| 高活性化合物（pIC₅₀ ≥ 7） | 598个（34.7%） |
| 中等活性化合物（pIC₅₀ ≥ 6） | 826个（47.9%） |

如此高比例的类药性化合物使该数据集特别适合用于虚拟筛选和先导化合物优化。数据来源包括ChEMBL和BindingDB两大权威数据库，确保了数据的可靠性和可重复性。

## 数据字段与描述符

数据集包含丰富的分子描述符，为机器学习模型提供了全面的特征输入：

**基础信息字段**：
- SMILES：经RDKit验证的标准化SMILES字符串
- IC50_nM：实验测定的IC₅₀值（纳摩尔浓度）
- IC50_uM：IC₅₀值（微摩尔浓度）
- pIC50：IC₅₀摩尔浓度的负对数值
- Source：数据来源（ChEMBL或BindingDB）

**分子描述符**：
- MW（分子量）：影响药物渗透性和代谢稳定性
- LogP（脂水分配系数）：预测化合物的亲脂性和膜通透性
- HBD（氢键供体数）：影响与靶点的相互作用
- HBA（氢键受体数）：同样关键的药效团特征
- TPSA（拓扑极性表面积）：与口服生物利用度密切相关
- RotBonds（可旋转键数）：影响分子柔性和构象熵
- Lipinski（布尔值）：是否符合Lipinski五规则

这些描述符覆盖了药物化学家关注的核心属性，使数据集可直接用于构建预测模型。

## 数据获取与处理流程

项目提供了完整的数据处理流水线，确保可重复性：

**第一步：安装依赖**
```bash
pip install -r requirements.txt
```

**第二步：获取原始数据**
- 从ChEMBL 37下载：访问https://www.ebi.ac.uk/chembl/，检索靶点CHEMBL3318和CHEMBL1973的生物活性数据，筛选Standard Type为IC50的条目
- 从BindingDB下载：访问https://www.bindingdb.org，搜索tyrosinase，导出TSV格式

**第三步：运行处理脚本**
```bash
python 01_clean_chembl.py
python 02_clean_bindingdb.py
python 03_merge_validate_describe.py
python 04_analysis_figures.py
```

这种模块化的设计使研究人员可以根据需要调整处理流程，或整合新的数据源。

## 应用价值与意义

**化妆品工业**：酪氨酸酶抑制剂是美白产品的核心成分。该数据集可用于筛选高效、低毒的新型美白剂，替代传统成分如氢醌。

**农业应用**：酪氨酸酶参与真菌黑色素合成，抑制该酶可有效控制植物病原真菌。数据集中的高活性化合物可作为农用抗真菌剂的先导结构。

**计算方法学验证**：作为标准基准数据集，可用于比较不同机器学习算法（如随机森林、支持向量机、神经网络）在QSAR任务上的性能。

**药物重定位**：通过分析活性化合物的结构特征，可能发现已有药物的新用途。

## 使用建议与引用

使用该数据集时，请按以下格式引用：

> Farokhi, R. (2026). A Curated Multi-Source Dataset of 1,725 Tyrosinase Inhibitors with Experimental IC₅₀ Values for QSAR and Machine Learning Applications. Data in Brief (under review).
> Dataset: https://doi.org/10.5281/zenodo.20584594

建议的下游任务包括：
- 构建分类模型预测化合物是否为高活性抑制剂
- 开发回归模型预测pIC₅₀值
- 进行分子聚类分析发现新的化学骨架
- 结合分子对接进行虚拟筛选

## 总结

这个酪氨酸酶抑制剂数据集是药物化学和机器学习交叉领域的宝贵资源。其大规模、高质量、多描述符的特点，使其成为QSAR建模的理想基准。对于从事药物发现、化妆品研发或计算化学的研究者来说，这是一个值得深入探索的数据集。