正文

酪氨酸酶抑制剂数据集：1,725个实验验证化合物助力AI药物发现

一个精心整理的多源数据集，包含1,725个酪氨酸酶抑制剂的实验IC₅₀值，适用于QSAR建模和机器学习应用，为美白药物和农业抗真菌剂研发提供高质量数据基础。

酪氨酸酶抑制剂QSAR建模机器学习药物发现ChEMBLBindingDB分子描述符IC50美白药物抗真菌剂

发布时间 2026/06/12 22:46最近活动 2026/06/12 22:50预计阅读 4 分钟

章节 01

导读 / 主楼：酪氨酸酶抑制剂数据集：1,725个实验验证化合物助力AI药物发现

章节 02

原作者与来源

原作者/维护者: Reza Farokhi (Islamic Azad University, Kerman, Iran)
来源平台: GitHub
原始标题: tyrosinase-inhibitors-dataset
原始链接: https://github.com/reza-farrokhi/tyrosinase-inhibitors-dataset
发布时间: 2026年6月
数据集DOI: 10.5281/zenodo.20584594
许可证: CC BY 4.0

章节 03

数据集概述

这是一个经过精心整理的多源数据集，收录了1,725个酪氨酸酶抑制剂的实验IC₅₀值，专为QSAR（定量构效关系）建模和机器学习应用而设计。数据集整合了ChEMBL 37和BindingDB（2026年6月版）两大权威数据库的数据，涵盖了真菌酪氨酸酶（CHEMBL3318）和人酪氨酸酶（CHEMBL1973）两种关键靶点。

酪氨酸酶是黑色素合成的关键酶，在化妆品美白和农业抗真菌领域具有重要应用价值。该数据集为研究人员提供了高质量的基准数据，可用于训练预测模型，加速新型抑制剂的发现。

章节 04

数据规模与质量指标

数据集经过严格筛选和验证，主要统计指标如下：

指标	数值
总化合物数	1,725个
符合Lipinski规则	1,438个（83.4%）
高活性化合物（pIC₅₀ ≥ 7）	598个（34.7%）
中等活性化合物（pIC₅₀ ≥ 6）	826个（47.9%）

如此高比例的类药性化合物使该数据集特别适合用于虚拟筛选和先导化合物优化。数据来源包括ChEMBL和BindingDB两大权威数据库，确保了数据的可靠性和可重复性。

章节 05

数据字段与描述符

数据集包含丰富的分子描述符，为机器学习模型提供了全面的特征输入：

基础信息字段：

SMILES：经RDKit验证的标准化SMILES字符串
IC50_nM：实验测定的IC₅₀值（纳摩尔浓度）
IC50_uM：IC₅₀值（微摩尔浓度）
pIC50：IC₅₀摩尔浓度的负对数值
Source：数据来源（ChEMBL或BindingDB）

分子描述符：

MW（分子量）：影响药物渗透性和代谢稳定性
LogP（脂水分配系数）：预测化合物的亲脂性和膜通透性
HBD（氢键供体数）：影响与靶点的相互作用
HBA（氢键受体数）：同样关键的药效团特征
TPSA（拓扑极性表面积）：与口服生物利用度密切相关
RotBonds（可旋转键数）：影响分子柔性和构象熵
Lipinski（布尔值）：是否符合Lipinski五规则

这些描述符覆盖了药物化学家关注的核心属性，使数据集可直接用于构建预测模型。

章节 06

数据获取与处理流程

项目提供了完整的数据处理流水线，确保可重复性：

第一步：安装依赖

pip install -r requirements.txt

第二步：获取原始数据

从ChEMBL 37下载：访问https://www.ebi.ac.uk/chembl/，检索靶点CHEMBL3318和CHEMBL1973的生物活性数据，筛选Standard Type为IC50的条目
从BindingDB下载：访问https://www.bindingdb.org，搜索tyrosinase，导出TSV格式

第三步：运行处理脚本

python 01_clean_chembl.py
python 02_clean_bindingdb.py
python 03_merge_validate_describe.py
python 04_analysis_figures.py

这种模块化的设计使研究人员可以根据需要调整处理流程，或整合新的数据源。

章节 07

应用价值与意义

化妆品工业：酪氨酸酶抑制剂是美白产品的核心成分。该数据集可用于筛选高效、低毒的新型美白剂，替代传统成分如氢醌。

农业应用：酪氨酸酶参与真菌黑色素合成，抑制该酶可有效控制植物病原真菌。数据集中的高活性化合物可作为农用抗真菌剂的先导结构。

计算方法学验证：作为标准基准数据集，可用于比较不同机器学习算法（如随机森林、支持向量机、神经网络）在QSAR任务上的性能。

药物重定位：通过分析活性化合物的结构特征，可能发现已有药物的新用途。

章节 08

使用建议与引用

使用该数据集时，请按以下格式引用：

Farokhi, R. (2026). A Curated Multi-Source Dataset of 1,725 Tyrosinase Inhibitors with Experimental IC₅₀ Values for QSAR and Machine Learning Applications. Data in Brief (under review). Dataset: https://doi.org/10.5281/zenodo.20584594

建议的下游任务包括：