Zing 论坛

正文

CODRUG:面向药物研发的QSAR机器学习可视化分析工具

本文介绍CODRUG,一款基于PyQt5开发的QSAR分析图形化工具,集成了分子描述符生成、特征工程、模型构建与验证等完整流程,为药物化学研究者提供零代码的机器学习解决方案。

QSAR药物研发机器学习分子描述符PyQt5化学信息学RDKit生物活性预测
发布时间 2026/06/11 10:45最近活动 2026/06/11 10:51预计阅读 3 分钟
CODRUG:面向药物研发的QSAR机器学习可视化分析工具
1

章节 01

导读:CODRUG——药物研发的零代码QSAR机器学习可视化工具

本文介绍CODRUG,一款基于PyQt5开发的QSAR分析图形化工具,集成分子描述符生成、特征工程、模型构建与验证等完整流程,为药物化学研究者提供零代码的机器学习解决方案。该工具由Moisés Maia维护,开源且已在巴西国家工业产权局(INPI)注册为计算机程序,旨在简化传统QSAR建模的复杂流程,降低机器学习在药物研发中的应用门槛。

2

章节 02

背景:QSAR分析的重要性与传统建模的痛点

定量构效关系(QSAR)分析是预测化合物生物活性的核心手段,通过结构-活性关联建模可缩小实验筛选范围,降低研发成本。但传统QSAR流程涉及数据收集、描述符计算、特征选择等多环节,需专业软件和统计知识,门槛较高,限制了机器学习的普及。CODRUG的设计目标正是简化这一流程,让研究者专注科学问题而非技术细节。

3

章节 03

CODRUG的核心功能模块

CODRUG提供端到端QSAR分析能力,主要模块包括:

  1. 数据集准备与预处理:支持ChEMBL导入,自动标准化清洗,处理缺失值/异常值;
  2. 分子描述符生成与特征工程:集成RDKit/PaDEL-Descriptor计算数百种描述符,支持特征选择/降维;
  3. 模型构建与验证:内置回归、分类、聚类算法,通过PyCaret/Scikit-learn实现超参数优化与交叉验证;
  4. 外部数据库预测:应用模型于外部化合物库,支持虚拟筛选与先导化合物优化。
4

章节 04

技术架构与关键依赖库

CODRUG基于Python 3.10.12和PyQt5/Qt5.15.14开发,技术栈包括:

  • GUI框架:PyQt5;
  • 化学信息学:RDKit 2024.03.5;
  • 数据处理:Pandas、NumPy;
  • 机器学习:Scikit-learn、PyCaret;
  • 深度学习:TensorFlow、PyTorch;
  • 可视化:Matplotlib、Seaborn;
  • 数据获取:ChEMBL Web Client;
  • 描述符计算:PaDELpy。
5

章节 05

安装使用指南与平台兼容性说明

安装简单,下载源码解压后运行主程序,首次启动自动创建虚拟环境并检查依赖。界面采用标签页布局,按QSAR流程组织(数据导入→预处理→描述符→模型→验证→预测),新手易上手。目前仅在Linux Mint 21.3(CUDA 12.4)完整测试,Ubuntu衍生版理论支持,Windows/macOS需额外适配或用虚拟机。

6

章节 06

应用价值与目标用户群体

目标用户包括药物化学研究者(无编程背景)、计算化学学生(教学工具)、小型团队(一体化平台)、工业研发部门(快速原型)。工具价值在于封装复杂流程,让研究者专注科学假设,开源GPL许可证保障学术自由与社区贡献。

7

章节 07

未来发展方向:跨平台与功能增强

CODRUG未来计划扩展:

  1. 跨平台支持:增加Windows/macOS官方支持;
  2. 云端部署:开发Web版本支持协作;
  3. 深度学习集成:增强图神经网络(GNN)支持;
  4. 自动化工作流:引入AutoML降低门槛;
  5. 模型解释:增加可解释性功能理解结构-活性关系。
8

章节 08

结语:工具民主化助力药物研发

CODRUG是药物研发工具民主化的重要尝试,通过友好界面封装专业QSAR能力,降低机器学习应用门槛,让更多研究者受益于计算方法。对于药物设计与计算化学专业人士,是值得关注的开源工具。