# DeepMol-WorkBuddy-skill：桌面AI智能体的计算化学能力扩展

> 将DeepMol计算化学框架封装为WorkBuddy桌面智能体的技能包，使AI助手能够执行端到端的分子机器学习工作流，涵盖数据加载、特征化、模型训练到可解释性分析。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-02T11:14:05.000Z
- 最近活动: 2026-05-02T11:19:59.702Z
- 热度: 161.9
- 关键词: 计算化学, 药物发现, 分子机器学习, AI智能体, WorkBuddy, DeepMol, QSAR, ADMET预测, 技能包
- 页面链接: https://www.zingnex.cn/forum/thread/deepmol-workbuddy-skill-ai
- Canonical: https://www.zingnex.cn/forum/thread/deepmol-workbuddy-skill-ai
- Markdown 来源: ingested_event

---

## 背景：AI for Science的落地挑战\n\n近年来，人工智能在科学研究领域的应用（AI for Science）取得了令人瞩目的进展。在计算化学和药物发现领域，深度学习模型已经被广泛用于预测分子性质、筛选候选药物、优化分子结构等任务。然而，将这些强大的AI能力真正落地到科研人员的日常工作中，仍然面临诸多挑战。\n\n主要的障碍在于：\n\n**技术门槛高**：计算化学工具通常需要掌握Python编程、RDKit化学信息学库、深度学习框架等专业技能。对于专注于化学或生物学的研究人员来说，这意味着需要投入大量时间学习编程和机器学习知识。\n\n**工作流程复杂**：一个完整的分子机器学习项目涉及数据预处理、分子标准化、特征提取、模型选择、超参数优化、结果验证等多个环节。每个环节都有其特定的最佳实践和常见陷阱，新手很难快速上手。\n\n**工具碎片化**：不同的任务需要使用不同的工具和库，如RDKit用于分子操作、scikit-learn用于传统机器学习、PyTorch/TensorFlow用于深度学习、DeepChem用于化学专用模型等。将这些工具有机整合成一个流畅的工作流并非易事。\n\nDeepMol-WorkBuddy-skill项目正是为了解决这些问题而生。它通过将DeepMol计算化学框架封装为AI智能体的"技能包"，让没有编程背景的研究人员也能通过自然语言与AI助手交互，完成复杂的分子机器学习任务。\n\n## 项目概述：AI技能包的新形态\n\nDeepMol-WorkBuddy-skill是一个为WorkBuddy桌面智能体设计的AI技能（Skill）。WorkBuddy是CodeBuddy推出的桌面AI助手产品，支持通过自然语言对话执行各种任务。而"技能"（Skill）则是扩展WorkBuddy能力的模块化组件。\n\n这个技能包的核心价值在于：它将DeepMol——一个功能强大的计算化学机器学习框架——的能力转化为AI助手可以理解和调用的 procedural knowledge。换句话说，它教会了AI助手如何正确地执行分子机器学习工作流，而不是让AI去猜测API的使用方法。\n\n### DeepMol框架简介\n\nDeepMol是一个基于Python的机器学习和深度学习框架，专门用于药物发现领域。它构建在多个成熟的开源库之上：\n\n- **RDKit**：化学信息学和分子操作的行业标准\n- **TensorFlow/Keras** 和 **PyTorch**：主流深度学习框架\n- **scikit-learn**：传统机器学习算法库\n- **DeepChem**：专门针对化学任务的深度学习库\n\nDeepMol提供了一套高层次的API，将上述底层库的复杂性封装起来，让研究人员能够更专注于科学问题本身。\n\n## 技能包内容结构\n\nDeepMol-WorkBuddy-skill的仓库结构清晰，包含以下核心组件：\n\n### SKILL.md：11步完整工作流指南\n\n这是技能包的核心文档，详细描述了一个完整的分子机器学习工作流，涵盖从数据加载到管线优化的11个步骤。AI助手通过学习这份文档，掌握了执行分子ML任务的标准流程。\n\n### references/api_reference.md：详细API参考\n\n提供了DeepMol 14个以上模块的完整API参考，包括每个函数的参数、返回值和使用示例。这使得AI助手在需要时能够准确调用特定的功能。\n\n### scripts/：可直接使用的CLI脚本\n\n技能包包含三个实用的命令行脚本：\n\n1. **check_install.py**：一键环境验证脚本，检查所有依赖是否正确安装\n2. **tutorial.py**：面向初学者的引导式教程，使用内置演示数据\n3. **qsar_pipeline.py**：端到端的QSAR/QSPR管线脚本，支持分类和回归任务\n4. **batch_featurization.py**：批量分子特征化脚本\n5. **admet_prediction.py**：ADMET性质预测脚本，使用预训练模型\n\n## 核心能力矩阵\n\n通过这个技能包，WorkBuddy智能体获得了以下计算化学AI能力：\n\n### 数据加载与预处理\n\n支持从CSV（SMILES格式）和SDF（3D结构格式）文件加载分子数据，并提供分片加载功能处理大型数据集。这对于处理包含数十万分子的化合物库至关重要。\n\n### 化合物标准化\n\n提供多种标准化策略：\n\n- **基础标准化**：基本的分子清理和格式统一\n- **自定义重度标准化**：针对特定需求的深度清理\n- **ChEMBL标准化**：符合ChEMBL数据库标准的严格标准化流程\n\n标准化是分子ML的关键步骤，确保不同来源的数据具有一致的表示形式。\n\n### 分子特征化\n\n支持多种分子描述符和指纹算法：\n\n- **Morgan指纹**：基于圆形拓扑结构的ECFP指纹，广泛用于分子相似性搜索和机器学习\n- **MACCS密钥**：166位的分子结构特征向量\n- **RDK指纹**：RDKit提供的基于路径的指纹\n- **AtomPair指纹**：基于原子对距离的描述符\n- **Layered指纹**：多层次的分子表示\n- **Mol2Vec**：基于词嵌入思想的分子向量表示\n- **DeepChem特征化器**：利用DeepChem的高级特征提取方法\n\n### 特征选择与降维\n\n提供多种特征选择和降维技术：\n\n- **特征选择**：低方差过滤、K最佳特征、百分位选择、递归特征消除（RFE）、基于重要性的选择\n- **降维**：PCA、t-SNE、UMAP等流行降维算法\n- **聚类分析**：KMeans聚类用于分子分组\n\n### 数据分割策略\n\n支持多种数据分割方法，适应不同的建模需求：\n\n- **随机分割**：简单随机划分训练/验证/测试集\n- **分层分割**：保持类别比例的分割，适用于分类任务\n- **K折交叉验证**：用于模型选择和超参数调优\n- **基于骨架的分割**：确保训练集和测试集在化学骨架上具有差异性，更真实地评估模型泛化能力\n\n### 模型构建与训练\n\n支持多种后端和算法：\n\n- **scikit-learn后端**：随机森林、支持向量机、梯度提升等传统ML算法\n- **Keras/TensorFlow后端**：深度神经网络模型\n- **DeepChem后端**：图神经网络（GNN）等化学专用深度学习模型\n\n### 超参数优化\n\n集成网格搜索（Grid Search）和随机搜索（Randomized Search）进行超参数调优，支持交叉验证评估。此外还支持Optuna进行更高效的贝叶斯优化。\n\n### 模型可解释性\n\n集成SHAP（SHapley Additive exPlanations）库提供模型解释：\n\n- **蜂群图（Beeswarm plot）**：展示特征对预测的整体影响\n- **瀑布图（Waterfall plot）**：解释单个预测的贡献分解\n- **特征重要性图**：直观展示各特征的重要性排序\n- **分子位点可视化**：将重要的指纹位点映射回分子结构，帮助化学家理解模型的决策依据\n\n### 不平衡数据处理\n\n针对分子数据集中常见的类别不平衡问题，提供多种重采样技术：\n\n- **SMOTE**：合成少数类过采样\n- **SMOTEENN** 和 **SMOTETomek**：结合过采样和欠采样的混合策略\n- **ClusterCentroids**：基于聚类的欠采样\n\n### 管线与AutoML\n\n- **端到端管线**：支持构建完整的数据处理-建模-预测管线，并提供保存/加载功能确保可复现性\n- **AutoML**：基于Optuna的管线步骤自动优化，自动搜索最佳的特征化器、模型和超参数组合\n\n## 安装与使用\n\n### 环境要求\n\n- Python >= 3.13（注意：官方pip install在Python 3.13+上可能存在问题，技能包提供了验证过的分步安装指南）\n- DeepMol 1.2.1\n\n### 安装步骤\n\n技能包提供了绕过scikeras依赖问题的安装方案：\n\n```bash\n# 核心安装（适用于Python 3.13+）\npip install deepmol --no-deps\npip install scikit-learn\npip install rdkit seaborn pillow h5py imbalanced-learn chembl_structure_pipeline \\\n    graph-part kneed shap umap-learn dill boruta ipython pandas biosynfoni \\\n    cached_property timeout_decorator matplotlib networkx plotly transformers\npip install torch --index-url https://download.pytorch.org/whl/cpu\npip install optuna\n```\n\n### 验证安装\n\n```bash\npython scripts/check_install.py\n```\n\n### 使用示例\n\n**QSAR建模管线**：\n```bash\npython scripts/qsar_pipeline.py data.csv \\\n    --smiles-col SMILES --label-col pIC50 \\\n    --task regression --model rf --featurizer morgan --shap\n```\n\n**批量特征化**：\n```bash\npython scripts/batch_featurization.py library.csv \\\n    --smiles-col SMILES --featurizer morgan --output features.csv\n```\n\n**ADMET性质预测**（使用预训练模型）：\n```bash\npython scripts/admet_prediction.py compounds.csv \\\n    --models BBBP CYP2D6 HIA Solubility --output predictions.csv\n```\n\n### WorkBuddy集成\n\n将技能包复制到`~/.workbuddy/skills/deepmol/`目录后，用户可以通过自然语言与WorkBuddy交互：\n\n- \"帮我用这份数据集训练一个QSAR模型\"\n- \"为这些分子生成Morgan指纹\"\n- \"预测这批化合物的ADMET性质\"\n- \"用Optuna优化分类管线\"\n\n## 技术验证与可靠性\n\n该技能包的一个显著特点是其高度的可靠性。所有代码都经过实际环境验证：\n\n- **测试环境**：DeepMol 1.2.1, Python 3.14, Windows 11（2026年5月）\n- **实际运行验证**：所有脚本都在真实安装环境中运行通过\n- **API文档准确性**：API参考反映实际行为，而非从README猜测\n\n这种\"经过实战检验\"的特性对于科研工具尤为重要，因为研究人员无法承受工具链不稳定带来的时间损失。\n\n## 实践意义：AI技能包模式的启示\n\nDeepMol-WorkBuddy-skill代表了一种新兴的AI应用模式——将专业领域的复杂工具封装为AI助手可理解的"技能"。这种模式具有以下优势：\n\n### 降低专业工具的使用门槛\n\n通过自然语言界面，非编程背景的研究人员也能使用原本需要编写代码才能操作的专业工具。这大大扩展了先进AI技术的受众范围。\n\n### 确保最佳实践的正确执行\n\nAI助手通过学习详细的技能文档，能够按照领域专家总结的最佳实践执行任务，避免新手常犯的错误。\n\n### 人机协作的新范式\n\n这种模式不是用AI替代研究人员，而是让AI成为研究人员的智能助手。研究人员提供科学洞察和问题定义，AI负责执行繁琐的技术细节。\n\n### 可复现性的保障\n\n通过标准化的管线和保存/加载机制，研究工作流变得更加可复现，这对于科学研究的严谨性至关重要。\n\n## 结语\n\nDeepMol-WorkBuddy-skill项目展示了AI for Science领域的一个重要发展方向：通过智能体技能包的形式，将复杂的科学计算工具转化为易用的自然语言接口。这不仅降低了先进AI技术的使用门槛，也为科学研究的效率提升开辟了新的可能性。随着大语言模型能力的不断增强，我们可以期待更多类似的技能包出现，覆盖从生物信息学到材料科学的各个研究领域。