章节 01
导读 / 主楼:推理模型的"确认偏差"谜题:会解题却不会验题
研究发现大推理模型存在严重的"生成-评估"鸿沟——能完美解题却在验证推理时只有48%准确率,揭示了答案确认偏差这一根本性缺陷
正文
研究发现大推理模型存在严重的"生成-评估"鸿沟——能完美解题却在验证推理时只有48%准确率,揭示了答案确认偏差这一根本性缺陷
章节 01
研究发现大推理模型存在严重的"生成-评估"鸿沟——能完美解题却在验证推理时只有48%准确率,揭示了答案确认偏差这一根本性缺陷
章节 02
章节 03
认知科学研究表明,人类在推理能力上存在一个有趣的不对称性:人们通常更擅长评估他人的推理,而不是从头开始产生推理。这就是为什么同行评审有效、为什么老师能批改学生作业、为什么代码审查能发现bug——验证往往比创造更容易。
然而,当前的大推理模型(Large Reasoning Models, LRMs)训练方式完全相反。它们被训练来生成冗长的思考链(Chain-of-Thought),一步步解决复杂问题,在推理生成任务上表现出色。但问题是:这些模型在推理评估任务上表现如何?
这正是本研究要解答的核心问题。
章节 04
要研究"生成vs评估"的能力差异,最大的挑战是分离这两个任务。如果让模型评估一个它自己生成的解答,就无法区分是评估能力不足,还是生成时就已经犯了同样的错误。
研究团队设计了VAIR(Valid-Answer-Invalid-Reasoning)数据集来巧妙解决这个问题:
章节 05
VAIR包含数学题目和对应的解答,这些解答具有以下特征:
这种设计创造了一个"陷阱"——只看答案会认为是正确的,但仔细检查推理过程就会发现漏洞。
章节 06
想象一道数学题,正确答案是42。VAIR中的解答可能这样写:
步骤1: 10 + 20 = 35 (错误:应该是30)
步骤2: 35 + 7 = 42 (计算正确)
最终答案: 42 (巧合地正确)
对人类来说,很容易发现步骤1的错误;但对依赖答案验证的模型来说,这可能是个陷阱。
章节 07
研究团队首先测试了人类的表现作为基准:
这表明人类确实更擅长评估,但差距不大——人们在解题和评估上都表现不错。
章节 08
然后测试了前沿大推理模型(包括多个顶级模型):
这是一个惊人的鸿沟!模型能完美解题,却在验证他人解答时只有抛硬币水平的准确率。