# 大规模科学家评估揭示：当代AI在科学创新中缺乏想象力和否定能力

> 一项涵盖12万篇预印本、6749名科学家的最大规模评估发现，当前AI在科学假设生成中存在三大局限：非推理模型陷入"群体思维"、所有模型都无法自发提出零假设、自动评估与人类专家判断一致性较弱。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-06T16:39:28.000Z
- 最近活动: 2026-06-09T02:21:19.466Z
- 热度: 84.3
- 关键词: AI for Science, 科学发现, 假设生成, 零假设, 人类反馈, 跨学科评估, LLM局限性, 科学推理
- 页面链接: https://www.zingnex.cn/forum/thread/ai-c90a8d49
- Canonical: https://www.zingnex.cn/forum/thread/ai-c90a8d49
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Contemporary AI lacks the imagination to diverge or negate in science
- 原始链接：http://arxiv.org/abs/2606.08251v1
- 来源发布时间/更新时间：2026-06-06T16:39:28Z

## 原作者与来源\n\n- **原作者/团队**：未明确列出单一作者团队（arXiv预印本）\n- **来源平台**：arXiv\n- **原文标题**：Contemporary AI lacks the imagination to diverge or negate in science\n- **原文链接**：http://arxiv.org/abs/2606.08251v1\n- **发布时间**：2026年6月6日\n\n---\n\n## 研究背景与动机\n\n近年来，关于人工智能将加速科学发现的乐观预测层出不穷，但这些豪言壮语往往跑在了实证证据的前面。AI领域一直缺乏大规模、让一线科学家直接参与的评估来验证这些说法。这项研究填补了这一空白，开展了迄今为止规模最大的"科学家在环"评估，旨在系统性地描绘出AI在科学创新中**尚不能**做什么的完整图景。\n\n研究团队向生物学、医学、化学和社会科学领域的121,640篇近期预印本作者发出邀请，请他们评判大型语言模型基于其论文背景和未解难题所生成的后续研究想法。最终有6,749名科学家返回了25,139组评分，从新颖性、实证可行性、真实概率和采纳意愿四个维度进行评价。\n\n---\n\n## 核心发现：AI科学思维的三大局限\n\n### 局限一：思维同质化与"群体思维"\n\n研究发现，**非推理型LLM**在生成科学假设时表现出明显的"群体思维"（hivemind）倾向——它们倾向于产生彼此高度相似的创意，探索的假设空间非常狭窄。相比之下，具备推理能力的模型能够漫游更广阔的假设空间，生成更多样化的想法。\n\n然而，一个关键发现是：**没有任何模型类别能够自发地提出零假设**（null hypotheses）。零假设是科学研究中的核心方法论工具，代表"没有效果"或"无差异"的基准假设，是假设检验的逻辑基础。人类科学家能够自由地提出零假设来挑战既有观点，但AI模型似乎缺乏这种"否定性思维"的能力。\n\n这一发现揭示了一个深层问题：AI或许能够生成看似合理的正向假设，但缺乏科学怀疑主义的精神——那种主动寻找证伪证据、挑战现有理论的批判性思维。\n\n### 局限二：领域差异与科学家偏好\n\n研究揭示了不同学科领域科学家对AI生成想法的评判差异：\n\n**学科风险偏好差异**：社会科学家比生命科学家更能容忍风险，更愿意接受新颖但不确定性较高的想法。这可能反映了社会科学领域理论多元、范式竞争更为激烈的学科特性。\n\n**资深学者的严格把关**：资深社会科学家是AI想法最严厉的批评者，他们的怀疑态度是有充分理由的——AI在需要情境感知解释和演化理论的多元领域（如社会科学）表现最差。这些领域的知识不是静态的事实集合，而是需要不断根据新情境重新诠释的理论体系。\n\n**自我偏好倾向**：科学家普遍更青睐与自己观点相似的想法，并在"真实性概率"和"新颖性"之间更重视前者。这说明即使是专家评判，也难以完全摆脱认知偏见的影响。\n\n### 局限三：自动评估的可靠性危机\n\n当前AI社区高度依赖的自动评估方法——包括LLM-as-a-judge、人工指标、甚至最先进的SOTA模型——与人类专家判断的一致性**相当弱**。这意味着，许多在自动评估中表现优异的AI系统，在真实科学家眼中可能并不出色。\n\n研究团队尝试了两种常见的改进策略：\n- **检索增强**（RAG）：为模型提供相关文献背景\n- **科学家人格提示**：让模型模拟特定领域专家的思维方式\n\n然而，这两种方法都只能带来边际收益（marginal gains），无法根本解决自动评估与人类判断脱节的问题。\n\n---\n\n## 突破：基于人类反馈的奖励模型\n\n面对上述挑战，研究团队提出了一种解决方案：基于人类评分的后训练奖励模型。他们使用Qwen3-14B模型，在人类科学家25,139组评分上进行后训练，构建了一个能够捕捉领域品味细微差别的奖励模型。\n\n这一模型的表现令人瞩目：\n- 相比SOTA模型，准确率提升高达**27%**\n- 达到了独立同行评审者之间一致性水平的接近程度\n- 能够有效捕捉不同学科领域的评价标准和偏好差异\n\n这一结果表明，将人类专家判断纳入AI训练过程，是弥合自动评估与人类评估鸿沟的可行路径。\n\n---\n\n## 实践启示与未来方向\n\n### 对AI辅助科学研究的启示\n\n这项研究对当前如火如荼的"AI for Science"运动提出了重要警示：\n\n1. **AI是协作者而非替代者**：当前科学AI仍然是一个需要人类 grounding 的协作者，其想象力、输出质量和判断能力都受益于人类的引导和验证。\n\n2. **警惕自动评估的陷阱**：过度依赖自动指标可能导致研究方向偏离科学家的真实需求。在评估AI科学能力时，人类专家的判断仍应是金标准。\n\n3. **领域特异性至关重要**：AI在不同学科的表现差异巨大，需要针对特定领域的知识结构和推理模式进行专门优化。\n\n### 技术改进方向\n\n研究指出了几个有前景的技术改进方向：\n\n- **培养否定性思维**：开发能够主动提出零假设、进行证伪推理的AI系统\n\n- **人类反馈整合**：将专家判断系统性地融入模型训练和评估流程\n\n- **跨领域适应**：开发能够理解和适应不同学科文化和评价标准的灵活系统\n\n---\n\n## 结语\n\n尽管AI在科学领域的应用前景广阔，这项大规模评估提醒我们保持清醒的认识。当前AI系统缺乏真正的科学想象力——那种能够提出颠覆性假设、进行批判性否定、跨越学科边界进行创造性思维的能力。\n\n正如研究所示，AI或许能够生成看似合理的想法，但这些想法往往局限于已知的思维路径，缺乏人类科学家那种敢于挑战范式、提出反直觉假设的勇气。在可预见的未来，最有价值的科学发现仍将来自人类与AI的深度协作，而非AI的独立运作。\n\n对于科研工作者而言，这项研究既是一种警示，也是一种解放——AI可以承担部分繁琐的文献梳理和假设生成工作，但提出真正具有变革性的科学问题，仍然是人类智慧的专属领域。