正文

从分子结构预测人体药代动力学参数：机器学习在药物研发中的应用

一个结合随机森林、XGBoost和图神经网络的混合机器学习管道，能够从SMILES化学结构字符串直接预测人体清除率、分布容积、半衰期等关键药代动力学参数，并提供95%置信区间校准。

药物研发机器学习药代动力学图神经网络SMILES分子预测XGBoost随机森林

发布时间 2026/06/09 03:15最近活动 2026/06/09 03:19预计阅读 2 分钟

章节 01

【导读】机器学习混合管道预测人体药代动力学参数

本项目是一个结合随机森林、XGBoost和图神经网络的混合机器学习管道，可从SMILES化学结构字符串直接预测人体清除率（CL）、分布容积（Vd）、半衰期（t½）、终末消除速率常数（λz）等关键药代动力学参数，并提供95%置信区间校准。项目来源为GitHub的FHB_Human_PK_From_Structure_RShiny，支持FastAPI接口和R Shiny交互式应用。

章节 02

项目背景与意义

在新药研发中，药代动力学（PK）研究是候选药物进入临床试验的关键环节。传统方法需大量体内外实验，耗时耗力成本高。人体PK参数（CL、Vd、t½、λz）直接影响给药方案、风险评估及安全性窗口。近年来AI技术通过学习化学结构-活性关系，可在合成前预测PK特性，缩短研发周期、降低失败风险。

章节 03

技术架构与模型设计

项目采用多模型集成策略：

随机森林：处理高维分子描述符，建模非线性关系；
XGBoost：捕捉复杂映射关系，防止过拟合；
图神经网络（AttentiveFP架构）：将分子视为图结构，通过注意力机制关注关键子结构。每个参数独立训练优化，选择GMFE<1.5且R²>0.7的最佳模型组装成混合预测器。

章节 04

不确定性量化与置信区间

项目引入分裂符合预测方法提供95%置信区间。该非参数技术利用校准集误差分布确定区间，保证真实值落在区间内的概率至少达设定水平。这让研究人员获得点估计的同时了解不确定性，辅助决策（如宽区间需额外实验验证）。

章节 05

数据基础与系统部署

数据来源：整合Lombardo数据库、ChEMBL、Enamine等公开数据； 特征提取：RDKit计算二维/三维分子描述符（分子量、LogP等），PyTorch Geometric转换SMILES为图特征；部署：提供FastAPI RESTful API支持程序化访问，R Shiny界面供非技术用户输入SMILES获取可视化结果。

章节 06