正文

当大语言模型遇上分子结构生成：AI辅助材料发现的新探索

本文介绍了一个利用大语言模型生成分子结构并结合DFT优化的开源项目，探讨LLM在材料科学中的潜力与局限。

大语言模型分子结构生成DFT计算材料发现AI for Science计算化学

发布时间 2026/05/24 20:15最近活动 2026/05/24 20:17预计阅读 2 分钟

章节 01

导读：LLM+DFT辅助分子结构生成的开源项目探索

项目核心概述

Molecular-Identificatio是由Kris2lund维护的开源项目（GitHub链接：https://github.com/Kris2lund/Molecular-Identificatio，发布于2026年5月24日），探索大语言模型（LLM）生成分子结构并结合密度泛函理论（DFT）优化的可行性，评估生成结构与真实分子在几何构型和电子性质上的一致性，为AI辅助材料发现提供方法论参考。

核心思路

利用LLM直接输出分子三维坐标作为DFT计算的初始猜测，通过DFT优化后与PubChem数据库参考结构对比，探讨LLM在材料科学中的潜力与局限。

章节 02

背景与动机：材料发现的挑战与LLM的潜力

材料科学和计算化学领域长期面临核心挑战：如何高效发现和验证具有特定性质的新分子。传统分子结构生成依赖复杂物理模型和专家知识，DFT计算虽精确但需良好初始结构猜测才能收敛。近年LLM在文本、代码和结构化数据生成上的能力，引发科学界思考：LLM能否直接生成分子结构作为DFT初始猜测？

章节 03

核心方法论：评估流程与指标

评估流程

利用LLM直接输出分子三维坐标信息
将生成结构作为初始猜测输入DFT计算优化
优化结果与PubChem数据库参考结构多维度对比

评估指标

结构相似性：RMSD（均方根偏差）衡量原子位置偏差，统计成功率
电子性质：对比HOMO-LUMO能隙差异、DFT优化后的能量差异

章节 04

模型选择与实验设计

项目选用两款主流LLM测试：Gemini 2.5 Flash和GPT-5.4（代表不同架构路线与训练策略），对比其表现以理解模型特性对分子生成任务的影响。实验设计考虑分子多样性和复杂度，确保评估结果具有统计意义。

章节 05

技术实现与代码结构

项目仓库组织清晰，分为三个主要目录：

codes：代码实现模块
data：存放PubChem参考结构和LLM生成原始数据
figures：存放可视化分析结果（如RMSD分布图、能隙对比图等）模块化设计便于复现和扩展。

章节 06

意义与展望：AI辅助材料发现的未来方向

该项目代表AI for Science重要方向：

若LLM能可靠生成分子结构，将大幅降低材料发现门槛，加速新药研发、催化剂设计等领域进展
为理解LLM空间推理能力提供实验依据未来结合更大规模模型和更丰富化学语料训练，AI辅助材料发现有望成为实验室标准流程。

章节 07

结语：早期探索的价值与期待

Molecular-Identificatio项目虽处于早期阶段，但其探索方向具有重要科学价值和应用前景。随着LLM能力持续提升，AI在分子设计和材料科学中有望扮演越来越重要的角色。