# 3DTMC-LLM：将3D分子几何与大语言模型桥接的过渡金属配合物研究

> 一个将3D分子结构编码器与Qwen3大语言模型融合的多阶段训练框架，用于过渡金属配合物的性质预测、能垒回归和生成式任务

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-10T09:17:27.000Z
- 最近活动: 2026-06-10T09:28:58.719Z
- 热度: 155.8
- 关键词: AI for Science, 过渡金属配合物, 3D分子表示, 大语言模型, 性质预测, 量子化学
- 页面链接: https://www.zingnex.cn/forum/thread/3dtmc-llm-3d
- Canonical: https://www.zingnex.cn/forum/thread/3dtmc-llm-3d
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Reecy-Z
- **来源平台**: GitHub
- **原文标题**: 3DTMC-LLM
- **原文链接**: https://github.com/Reecy-Z/3DTMC-LLM
- **发布时间**: 2026-06-10

## 研究背景

过渡金属配合物（Transition Metal Complexes, TMCs）是催化、材料科学和药物化学的核心研究对象。传统上，TMC的性质预测依赖于密度泛函理论（DFT）等量子化学计算方法，这些方法虽然准确但计算成本极高，难以大规模筛选。

近年来，机器学习方法在分子性质预测方面取得了显著进展，但大多数方法仅利用分子的一维SMILES字符串或二维图结构，忽略了关键的三维几何信息。对于过渡金属配合物而言，3D几何构型（如配位几何、键角、空间位阻）对化学性质有着决定性影响。

3DTMC-LLM项目正是为了解决这一问题，它将3D分子结构编码器与大语言模型（默认Qwen3-4B-Instruct）相融合，构建了一个能够"理解"分子3D几何的生成式AI系统。

## 核心架构：3D编码器+LLM融合

项目采用多阶段训练策略，逐步将3D结构信息注入到语言模型中：

**3D编码器预训练**：使用掩码原子预测、坐标预测和原子对距离预测作为预训练目标，让编码器学习3D结构的内在表示。编码器基于Uni-Core分布式训练框架，支持DeepSpeed多GPU训练。

**Stage 1——投影层训练**：将预训练的3D编码器与LLM连接，通过单Token投影层将3D结构嵌入映射到LLM的嵌入空间。此阶段LLM参数冻结，仅训练投影层。输入格式为"指令+SMILES+3D结构→描述"。

**Stage 2——全参数微调**：在Stage 1基础上，对LLM施加LoRA（低秩自适应），同时继续训练3D编码器和投影层。训练数据包括增强描述（通过LLM润色的文本）和自动生成的问答对。

**Stage 3——下游任务微调**：统一的训练器用于所有回归任务，包括偶极矩、极化率、HOMO-LUMO能隙、Vaska能垒和Ni配合物对映选择性等。

## 消融实验设计

项目设计了丰富的消融实验来验证各组件的贡献：

| 消融模式 | 3D编码器 | 输入格式 | 投影方式 |
|----------|----------|----------|----------|
| stage1（默认） | 训练 | 指令+SMILES+3D | 单Token |
| 3d_only | 训练 | 指令+3D（无SMILES） | 单Token |
| multi_token | 训练 | 指令+SMILES+3D | 可学习多Token查询 |
| freeze_3d | 冻结 | 指令+SMILES+3D | 单Token |
| random_3d | 随机嵌入 | 指令+SMILES+随机3D | 单Token |

这些消融实验系统地评估了3D信息、SMILES文本和训练策略对最终性能的贡献。

## 数据集与数据准备

**TMC-Prop3D**：基于OMol25（Meta开源的大型有机分子数据集）构建的TMC 3D结构语料库，以LMDB格式存储。

**tmQMg**：来自hkneiding/tmqmg的过渡金属配合物性质数据集，包含偶极矩、极化率和HOMO-LUMO能隙等性质。项目提供了预定义的随机划分和基于FAISS的相似性控制（OOD）划分。

**Vaska's Space**：用于H₂活化能垒预测的Vaska配合物数据集。

**NiComplex**：五配位四方锥Ni配合物的对映选择性数据集，通过MetalloGen从配体/底物XYZ片段组装。

数据增强工作流包括：
- `enrich_description.py`：调用OpenAI兼容LLM润色描述文本
- `generate_QA_pairs.py`：从知识源文件（PDF/TXT/Markdown）生成问答对

## 下游任务

项目支持多种下游回归任务：

| 任务 | 预测目标 | 数据集 |
|------|----------|--------|
| dipole_moment | 偶极矩（Debye） | tmQMg |
| polarisability | 极化率（Bohr³） | tmQMg |
| homo_lumo_gap | HOMO-LUMO能隙（Ha） | tmQMg |
| vaska_barrier | H₂活化能垒（kcal/mol） | vaskas-space |
| nicomplex_ddg | 对映选择性ΔΔG（kcal/mol） | NiComplex |

## 训练与推理

项目使用DeepSpeed进行多GPU分布式训练，所有超参数集中在`train_defaults.py`中管理。推理通过统一的`inference.py`评估器完成。

```bash
# Stage 1训练
cuda --num_gpus=2 Stage1.py \
  --model_name Qwen/Qwen3-4B-Instruct-2507 \
  --train_lmdb /path/train.lmdb --val_lmdb /path/valid.lmdb \
  --3D_encoder_ckpt /path/to/encoder.pt \
  --3D_encoder_dict 3D_encoder_dict.txt \
  --output_dir /path/to/stage1_out

# Stage 3下游任务
cuda --num_gpus=2 Stage3.py \
  --task homo_lumo_gap \
  --Stage2_ckpt /path/to/stage2_checkpoint \
  --train_lmdb /path/train.lmdb --val_lmdb /path/valid.lmdb
```

预训练权重发布在Hugging Face的Reecy/3DTMC-LLM仓库中。

## 技术栈

- **3D编码器**：基于Uni-Core，支持掩码原子/坐标/距离预测
- **LLM基座**：Qwen/Qwen3-4B-Instruct-2507
- **分布式训练**：DeepSpeed多GPU
- **参数高效微调**：LoRA
- **数据格式**：LMDB（高效二进制存储）
- **任务管理**：统一task_registry和task_datasets

## 意义与展望

3DTMC-LLM代表了AI for Science领域的一个重要方向——将3D结构信息与语言模型相结合。其意义在于：

- **催化研究**：快速预测过渡金属配合物的催化性质，加速催化剂设计
- **药物化学**：理解金属配合物的生物活性与结构关系
- **方法学创新**：为其他3D分子+LLM融合研究提供了可复现的参考实现
- **开源贡献**：完整的训练流程、预训练权重和数据处理工具链全部开源

## 总结

3DTMC-LLM是一个在AI驱动化学研究领域的扎实工作。它通过精心设计的多阶段训练策略，成功地将3D分子几何信息注入到大语言模型中，为过渡金属配合物的性质预测提供了一个统一的生成式框架。对于计算化学、催化研究和AI for Science领域的研究者来说，这是一个值得关注和复现的项目。