章节 01
导读:HITLLLMs研究核心概述
本研究聚焦人类化学专家与大型语言模型(LLMs)在评估化学合成计划质量时的意见一致性,为化学领域AI辅助决策提供实证基础。HITLLLMs项目提供支持代码和原始反馈材料,助力论文《Do humans and large language models agree on the quality of synthesis plans?》的研究。
正文
一项探索人类化学专家与大型语言模型在评估化学合成计划质量时意见一致性的研究项目,为化学领域的AI辅助决策提供实证基础。
章节 01
本研究聚焦人类化学专家与大型语言模型(LLMs)在评估化学合成计划质量时的意见一致性,为化学领域AI辅助决策提供实证基础。HITLLLMs项目提供支持代码和原始反馈材料,助力论文《Do humans and large language models agree on the quality of synthesis plans?》的研究。
章节 02
在化学合成领域,高质量合成路线设计是药物发现和材料科学的核心挑战。随着LLMs能力提升,研究者探索其辅助合成计划评估的可能性,但人机评估一致性这一关键问题尚未充分解答。HITLLLMs项目围绕此问题展开。
章节 03
通过llm_querying/llms_querying.py调用OpenAI和VertexAI服务获取LLM评估结果,原始响应存储于responses_llms,master_paths.json包含呈现给专家的合成计划。
feasibility.py定义LLM提示词,确保评估方式与人类专家可比。
human_vs_llm.ipynb实现数据加载预处理、一致性度量、统计显著性检验及图表生成,可复现论文结果。
章节 04
数据集包含三部分:1.人类专家对逆合成树的专业评估;2.多种LLM对相同计划的评估结果;3.人机反馈对比分析。所有原始数据整合至expert_feedback_combined_llms.csv,便于统计分析与可视化。
章节 05
提供实证数据,帮助理解LLM在化学任务的表现边界、人机差异模式、一致/分歧的合成计划类型。
指导模型选择、提示工程优化、人机协作流程设计及基于一致性的质量筛选机制。
章节 06
项目采用MIT许可证开源,支持:验证论文统计结果、扩展至更多LLM模型、应用于其他化学数据集、改进评估指标。其比较人机评估的方法可推广至医学诊断、法律分析等领域。环境配置通过conda环境文件安装,需配置API凭证。
章节 07
HITLLLMs项目是化学信息学人机协作研究的重要案例,通过严谨分析提供AI能力与局限的见解。在LLM技术发展下,此类基础研究对确保AI工具有效辅助化学研究者意义重大。