# HITLLLMs：人类专家与LLM在化学合成计划评估上的一致性研究

> 一项探索人类化学专家与大型语言模型在评估化学合成计划质量时意见一致性的研究项目，为化学领域的AI辅助决策提供实证基础。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-20T14:45:50.000Z
- 最近活动: 2026-04-20T14:51:34.042Z
- 热度: 150.9
- 关键词: 化学信息学, LLM评估, 人机一致性, 合成计划, AIZynthFinder, 逆合成, 药物发现, 统计验证
- 页面链接: https://www.zingnex.cn/forum/thread/hitlllms-llm
- Canonical: https://www.zingnex.cn/forum/thread/hitlllms-llm
- Markdown 来源: ingested_event

---

## 研究背景

在化学合成领域，设计高质量的合成路线是药物发现和材料科学的核心挑战。随着大型语言模型（LLMs）能力的不断提升，研究者开始探索AI能否辅助甚至替代人类专家进行合成计划的评估。然而，一个关键问题尚未得到充分解答：人类专家与AI系统在评估合成计划质量时，是否能够达成一致？

HITLLLMs项目正是围绕这一核心问题展开，为论文《Do humans and large language models agree on the quality of synthesis plans?》提供支持代码和原始反馈材料。

## 项目内容概述

该仓库包含了对人类专家反馈与LLM反馈进行比较分析的全部代码和数据。核心分析工作集中在`human_vs_llm.ipynb`文件中，该文件可以从头重新生成论文中的所有图表。

### 数据集构成

仓库中的数据主要包括：

1. **人类专家反馈**：化学专家针对特定逆合成树给出的专业评估
2. **LLM响应**：多种大型语言模型对相同合成计划的评估结果
3. **对比分析**：将人类与AI的反馈进行系统性比较

所有原始数据最终被整合到`expert_feedback_combined_llms.csv`文件中，便于进行统计分析和可视化。

## 技术实现细节

### LLM查询系统

在`llm_querying`文件夹中，`llms_querying.py`文件负责生成LLM的响应。该脚本通过调用OpenAI和VertexAI的服务，向模型呈现合成计划并收集其评估结果。

`responses_llms`子文件夹存储了原始的JSON格式响应，这些响应随后被解析并转换为数据框格式。`master_paths.json`文件包含了经过修改的AIZynthFinder路线，这些路线正是呈现给化学专家评估的合成计划。

### 可行性评估框架

`feasibility.py`文件中定义了用于LLM的提示词（prompt），指导模型如何评估化学合成计划的可行性。这个提示词设计对于确保LLM以与人类专家可比较的方式输出评估结果至关重要。

### 统计分析流程

`human_vs_llm.ipynb`笔记本文件包含了完整的统计分析流程：

1. 数据加载与预处理
2. 人类与LLM评估的一致性度量
3. 统计显著性检验
4. 可视化图表生成

研究人员可以通过运行该笔记本，完全复现论文中的所有分析结果和图表。

## 环境配置与使用

项目依赖可以通过conda环境文件轻松安装：

```bash
conda env create -f environment.yml
conda activate stats_hitl_llms
```

使用OpenAI和VertexAI服务需要在`.env`文件中配置相应的API凭证。

## 研究意义与应用价值

### 对化学信息学的贡献

这项研究为化学信息学领域提供了重要的实证数据，帮助研究者理解：

- LLM在化学专业任务上的表现边界
- 人类专家直觉与AI评估之间的差异模式
- 哪些类型的合成计划更容易获得人机一致的评价
- 哪些情况下人类和AI存在系统性分歧

### 对AI辅助化学设计的启示

研究结果对于设计更好的AI辅助化学合成工具有直接指导意义：

1. **模型选择**：了解哪些LLM在化学评估任务上与人类专家更一致
2. **提示工程**：优化提示词设计以提升评估质量
3. **人机协作**：设计有效的人机协作工作流程，结合人类直觉和AI的计算能力
4. **质量控制**：建立基于人机一致性的合成计划质量筛选机制

### 方法论借鉴

该项目的研究方法——系统性地比较人类专家与AI系统的评估结果——可以推广到其他专业领域，如医学诊断、法律分析、工程设计等，为评估AI在专业任务上的可靠性提供通用框架。

## 开源与复现

项目采用MIT许可证开源，确保研究的可重复性和透明性。所有原始数据、处理代码和分析脚本都已公开，其他研究者可以：

- 验证论文中的统计结果
- 扩展分析到更多的LLM模型
- 将方法应用于其他化学数据集
- 改进评估指标和可视化方法

## 结语

HITLLLMs项目代表了化学信息学领域人机协作研究的一个重要案例。通过严谨的数据收集和统计分析，它为理解AI在化学专业任务上的能力和局限提供了宝贵见解。随着LLM技术的持续发展，这类基础研究对于确保AI工具能够真正辅助而非误导化学研究者具有重要意义。