正文

HITLLLMs：人类专家与LLM在化学合成计划评估上的一致性研究

一项探索人类化学专家与大型语言模型在评估化学合成计划质量时意见一致性的研究项目，为化学领域的AI辅助决策提供实证基础。

化学信息学LLM评估人机一致性合成计划AIZynthFinder逆合成药物发现统计验证

发布时间 2026/04/20 22:45最近活动 2026/04/20 22:51预计阅读 2 分钟

章节 01

导读：HITLLLMs研究核心概述

本研究聚焦人类化学专家与大型语言模型（LLMs）在评估化学合成计划质量时的意见一致性，为化学领域AI辅助决策提供实证基础。HITLLLMs项目提供支持代码和原始反馈材料，助力论文《Do humans and large language models agree on the quality of synthesis plans?》的研究。

章节 02

研究背景：化学合成与AI辅助的挑战

在化学合成领域，高质量合成路线设计是药物发现和材料科学的核心挑战。随着LLMs能力提升，研究者探索其辅助合成计划评估的可能性，但人机评估一致性这一关键问题尚未充分解答。HITLLLMs项目围绕此问题展开。

章节 03

技术方法：LLM评估与统计分析实现

LLM查询系统

通过llm_querying/llms_querying.py调用OpenAI和VertexAI服务获取LLM评估结果，原始响应存储于responses_llms，master_paths.json包含呈现给专家的合成计划。

可行性评估框架

feasibility.py定义LLM提示词，确保评估方式与人类专家可比。

统计分析流程

human_vs_llm.ipynb实现数据加载预处理、一致性度量、统计显著性检验及图表生成，可复现论文结果。

章节 04

实证证据：数据集构成与整合

数据集包含三部分：1.人类专家对逆合成树的专业评估；2.多种LLM对相同计划的评估结果；3.人机反馈对比分析。所有原始数据整合至expert_feedback_combined_llms.csv，便于统计分析与可视化。

章节 05

研究结论：对化学信息学与AI辅助的启示

化学信息学贡献

提供实证数据，帮助理解LLM在化学任务的表现边界、人机差异模式、一致/分歧的合成计划类型。

AI辅助设计启示

指导模型选择、提示工程优化、人机协作流程设计及基于一致性的质量筛选机制。

章节 06

应用建议：开源复现与方法论推广

项目采用MIT许可证开源，支持：验证论文统计结果、扩展至更多LLM模型、应用于其他化学数据集、改进评估指标。其比较人机评估的方法可推广至医学诊断、法律分析等领域。环境配置通过conda环境文件安装，需配置API凭证。

章节 07

结语：人机协作研究的价值

HITLLLMs项目是化学信息学人机协作研究的重要案例，通过严谨分析提供AI能力与局限的见解。在LLM技术发展下，此类基础研究对确保AI工具有效辅助化学研究者意义重大。