章节 01
导读 / 主楼:酪氨酸酶抑制剂数据集:1,725个实验验证化合物助力AI药物发现
一个精心整理的多源数据集,包含1,725个酪氨酸酶抑制剂的实验IC₅₀值,适用于QSAR建模和机器学习应用,为美白药物和农业抗真菌剂研发提供高质量数据基础。
正文
一个精心整理的多源数据集,包含1,725个酪氨酸酶抑制剂的实验IC₅₀值,适用于QSAR建模和机器学习应用,为美白药物和农业抗真菌剂研发提供高质量数据基础。
章节 01
一个精心整理的多源数据集,包含1,725个酪氨酸酶抑制剂的实验IC₅₀值,适用于QSAR建模和机器学习应用,为美白药物和农业抗真菌剂研发提供高质量数据基础。
章节 02
章节 03
这是一个经过精心整理的多源数据集,收录了1,725个酪氨酸酶抑制剂的实验IC₅₀值,专为QSAR(定量构效关系)建模和机器学习应用而设计。数据集整合了ChEMBL 37和BindingDB(2026年6月版)两大权威数据库的数据,涵盖了真菌酪氨酸酶(CHEMBL3318)和人酪氨酸酶(CHEMBL1973)两种关键靶点。
酪氨酸酶是黑色素合成的关键酶,在化妆品美白和农业抗真菌领域具有重要应用价值。该数据集为研究人员提供了高质量的基准数据,可用于训练预测模型,加速新型抑制剂的发现。
章节 04
数据集经过严格筛选和验证,主要统计指标如下:
| 指标 | 数值 |
|---|---|
| 总化合物数 | 1,725个 |
| 符合Lipinski规则 | 1,438个(83.4%) |
| 高活性化合物(pIC₅₀ ≥ 7) | 598个(34.7%) |
| 中等活性化合物(pIC₅₀ ≥ 6) | 826个(47.9%) |
如此高比例的类药性化合物使该数据集特别适合用于虚拟筛选和先导化合物优化。数据来源包括ChEMBL和BindingDB两大权威数据库,确保了数据的可靠性和可重复性。
章节 05
数据集包含丰富的分子描述符,为机器学习模型提供了全面的特征输入:
基础信息字段:
分子描述符:
这些描述符覆盖了药物化学家关注的核心属性,使数据集可直接用于构建预测模型。
章节 06
项目提供了完整的数据处理流水线,确保可重复性:
第一步:安装依赖
pip install -r requirements.txt
第二步:获取原始数据
第三步:运行处理脚本
python 01_clean_chembl.py
python 02_clean_bindingdb.py
python 03_merge_validate_describe.py
python 04_analysis_figures.py
这种模块化的设计使研究人员可以根据需要调整处理流程,或整合新的数据源。
章节 07
化妆品工业:酪氨酸酶抑制剂是美白产品的核心成分。该数据集可用于筛选高效、低毒的新型美白剂,替代传统成分如氢醌。
农业应用:酪氨酸酶参与真菌黑色素合成,抑制该酶可有效控制植物病原真菌。数据集中的高活性化合物可作为农用抗真菌剂的先导结构。
计算方法学验证:作为标准基准数据集,可用于比较不同机器学习算法(如随机森林、支持向量机、神经网络)在QSAR任务上的性能。
药物重定位:通过分析活性化合物的结构特征,可能发现已有药物的新用途。
章节 08
使用该数据集时,请按以下格式引用:
Farokhi, R. (2026). A Curated Multi-Source Dataset of 1,725 Tyrosinase Inhibitors with Experimental IC₅₀ Values for QSAR and Machine Learning Applications. Data in Brief (under review). Dataset: https://doi.org/10.5281/zenodo.20584594
建议的下游任务包括: