正文

大规模科学家评估揭示：当代AI在科学创新中缺乏想象力和否定能力

一项涵盖12万篇预印本、6749名科学家的最大规模评估发现，当前AI在科学假设生成中存在三大局限：非推理模型陷入"群体思维"、所有模型都无法自发提出零假设、自动评估与人类专家判断一致性较弱。

AI for Science科学发现假设生成零假设人类反馈跨学科评估LLM局限性科学推理

发布时间 2026/06/07 00:39最近活动 2026/06/09 10:21预计阅读 2 分钟

章节 01

【导读】大规模科学家评估：当代AI在科学创新中存在三大核心局限

一项涵盖12万篇预印本作者邀请、6749名科学家参与的大规模评估发现，当前AI在科学假设生成中存在三大核心局限：非推理模型陷入"群体思维"、所有模型无法自发提出零假设、自动评估与人类专家判断一致性较弱。研究同时提出基于人类反馈的奖励模型，可将准确率提升27%，接近同行评审一致性水平。

章节 02

研究背景与动机

近年来关于AI加速科学发现的乐观预测缺乏实证支持，本研究填补空白，开展迄今为止规模最大的"科学家在环"评估。研究团队向生物学、医学、化学和社会科学领域的121640篇近期预印本作者发出邀请，最终6749名科学家返回25139组评分，从新颖性、实证可行性、真实概率和采纳意愿四个维度评判AI生成的后续研究想法。

章节 03

核心发现：AI科学思维的三大局限

思维同质化与零假设缺失：非推理型LLM易陷入"群体思维"，所有模型均无法自发提出零假设（科学研究的核心基准假设）；2. 学科差异与科学家偏好：社会科学家更容忍风险，资深学者对AI想法更严格，科学家普遍偏好与自身观点相似的想法；3. 自动评估可靠性危机：当前自动评估方法与人类专家判断一致性较弱，检索增强（RAG）和科学家人格提示仅带来边际收益。

章节 04

突破：基于人类反馈的奖励模型

研究团队提出基于人类评分的后训练奖励模型，使用Qwen3-14B模型在25139组人类评分上训练，结果显示：相比SOTA模型准确率提升27%，达到独立同行评审者之间的一致性水平，能有效捕捉不同学科领域的评价标准差异。

章节 05

实践启示与未来方向

启示：1. AI是需人类引导的协作者而非替代者；2. 警惕过度依赖自动评估指标；3. 重视AI在不同学科的表现差异。改进方向：培养AI的否定性思维（提出零假设）、系统性整合人类反馈到训练与评估、开发跨领域适应的灵活系统。

章节 06

结语：AI与人类协作是科学创新的未来

当前AI缺乏提出颠覆性假设、批判性否定的能力，其想法局限于已知路径。未来最有价值的科学发现仍需人类与AI深度协作，人类智慧仍是提出变革性科学问题的核心。

大规模科学家评估揭示：当代AI在科学创新中缺乏想象力和否定能力

【导读】大规模科学家评估：当代AI在科学创新中存在三大核心局限

研究背景与动机

核心发现：AI科学思维的三大局限

突破：基于人类反馈的奖励模型

实践启示与未来方向

结语：AI与人类协作是科学创新的未来

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程