Zing 论坛

正文

大规模科学家评估揭示:当代AI在科学创新中缺乏想象力和否定能力

一项涵盖12万篇预印本、6749名科学家的最大规模评估发现,当前AI在科学假设生成中存在三大局限:非推理模型陷入"群体思维"、所有模型都无法自发提出零假设、自动评估与人类专家判断一致性较弱。

AI for Science科学发现假设生成零假设人类反馈跨学科评估LLM局限性科学推理
发布时间 2026/06/07 00:39最近活动 2026/06/09 10:21预计阅读 2 分钟
大规模科学家评估揭示:当代AI在科学创新中缺乏想象力和否定能力
1

章节 01

【导读】大规模科学家评估:当代AI在科学创新中存在三大核心局限

一项涵盖12万篇预印本作者邀请、6749名科学家参与的大规模评估发现,当前AI在科学假设生成中存在三大核心局限:非推理模型陷入"群体思维"、所有模型无法自发提出零假设、自动评估与人类专家判断一致性较弱。研究同时提出基于人类反馈的奖励模型,可将准确率提升27%,接近同行评审一致性水平。

2

章节 02

研究背景与动机

近年来关于AI加速科学发现的乐观预测缺乏实证支持,本研究填补空白,开展迄今为止规模最大的"科学家在环"评估。研究团队向生物学、医学、化学和社会科学领域的121640篇近期预印本作者发出邀请,最终6749名科学家返回25139组评分,从新颖性、实证可行性、真实概率和采纳意愿四个维度评判AI生成的后续研究想法。

3

章节 03

核心发现:AI科学思维的三大局限

  1. 思维同质化与零假设缺失:非推理型LLM易陷入"群体思维",所有模型均无法自发提出零假设(科学研究的核心基准假设);2. 学科差异与科学家偏好:社会科学家更容忍风险,资深学者对AI想法更严格,科学家普遍偏好与自身观点相似的想法;3. 自动评估可靠性危机:当前自动评估方法与人类专家判断一致性较弱,检索增强(RAG)和科学家人格提示仅带来边际收益。
4

章节 04

突破:基于人类反馈的奖励模型

研究团队提出基于人类评分的后训练奖励模型,使用Qwen3-14B模型在25139组人类评分上训练,结果显示:相比SOTA模型准确率提升27%,达到独立同行评审者之间的一致性水平,能有效捕捉不同学科领域的评价标准差异。

5

章节 05

实践启示与未来方向

启示:1. AI是需人类引导的协作者而非替代者;2. 警惕过度依赖自动评估指标;3. 重视AI在不同学科的表现差异。改进方向:培养AI的否定性思维(提出零假设)、系统性整合人类反馈到训练与评估、开发跨领域适应的灵活系统。

6

章节 06

结语:AI与人类协作是科学创新的未来

当前AI缺乏提出颠覆性假设、批判性否定的能力,其想法局限于已知路径。未来最有价值的科学发现仍需人类与AI深度协作,人类智慧仍是提出变革性科学问题的核心。