章节 01
【导读】大规模科学家评估:当代AI在科学创新中存在三大核心局限
一项涵盖12万篇预印本作者邀请、6749名科学家参与的大规模评估发现,当前AI在科学假设生成中存在三大核心局限:非推理模型陷入"群体思维"、所有模型无法自发提出零假设、自动评估与人类专家判断一致性较弱。研究同时提出基于人类反馈的奖励模型,可将准确率提升27%,接近同行评审一致性水平。
正文
一项涵盖12万篇预印本、6749名科学家的最大规模评估发现,当前AI在科学假设生成中存在三大局限:非推理模型陷入"群体思维"、所有模型都无法自发提出零假设、自动评估与人类专家判断一致性较弱。
章节 01
一项涵盖12万篇预印本作者邀请、6749名科学家参与的大规模评估发现,当前AI在科学假设生成中存在三大核心局限:非推理模型陷入"群体思维"、所有模型无法自发提出零假设、自动评估与人类专家判断一致性较弱。研究同时提出基于人类反馈的奖励模型,可将准确率提升27%,接近同行评审一致性水平。
章节 02
近年来关于AI加速科学发现的乐观预测缺乏实证支持,本研究填补空白,开展迄今为止规模最大的"科学家在环"评估。研究团队向生物学、医学、化学和社会科学领域的121640篇近期预印本作者发出邀请,最终6749名科学家返回25139组评分,从新颖性、实证可行性、真实概率和采纳意愿四个维度评判AI生成的后续研究想法。
章节 03
章节 04
研究团队提出基于人类评分的后训练奖励模型,使用Qwen3-14B模型在25139组人类评分上训练,结果显示:相比SOTA模型准确率提升27%,达到独立同行评审者之间的一致性水平,能有效捕捉不同学科领域的评价标准差异。
章节 05
启示:1. AI是需人类引导的协作者而非替代者;2. 警惕过度依赖自动评估指标;3. 重视AI在不同学科的表现差异。改进方向:培养AI的否定性思维(提出零假设)、系统性整合人类反馈到训练与评估、开发跨领域适应的灵活系统。
章节 06
当前AI缺乏提出颠覆性假设、批判性否定的能力,其想法局限于已知路径。未来最有价值的科学发现仍需人类与AI深度协作,人类智慧仍是提出变革性科学问题的核心。