章节 01
导读:大模型推理崩溃现象的核心发现
本文通过九项经典推理任务的系统性测试,揭示了大推理模型(LRMs)在面对复杂度递增问题时会出现"推理崩溃"现象——超过特定阈值后准确率急剧下降,挑战了对其推理能力的过度乐观预期。
正文
本文通过九项经典推理任务的系统性测试,揭示了大推理模型在面对复杂度递增的问题时会出现"推理崩溃"现象,即在超过特定阈值后准确率急剧下降,挑战了对其推理能力的过度乐观预期。
章节 01
本文通过九项经典推理任务的系统性测试,揭示了大推理模型(LRMs)在面对复杂度递增问题时会出现"推理崩溃"现象——超过特定阈值后准确率急剧下降,挑战了对其推理能力的过度乐观预期。
章节 02
大语言模型(尤其是具备显式推理能力的LRMs)在数学、逻辑等基准测试中表现出色,催生了"AI推理能力媲美人类"的观点。但现有评估依赖固定数据集的聚合准确率,掩盖了任务复杂度增加时模型表现的演变问题。
章节 03
研究选择布尔可满足性(SAT)、密码算术、汉诺塔等九项经典离散状态空间问题,通过调整参数(如汉诺塔盘子数、魔方打乱步数)精确控制复杂度,使用确定性验证器确保结果严格正确。
章节 04
所有测试模型均呈现一致模式:低复杂度任务准确率高,超过任务特定阈值后准确率断崖式下跌(部分从近100%降至0%)。崩溃还体现在推理痕迹不一致、约束违反、状态跟踪丢失及自信错误输出等层面。
章节 05
推理崩溃是跨模型普遍现象(阈值因模型/任务而异);增加推理长度未必提升正确性(表面合理≠实质正确);模型依赖模式匹配而非可迁移推理策略(泛化失败);现有静态基准高估能力,需复杂度感知评估和严格验证。
章节 06
章节 07
可能原因:Transformer注意力机制局限、训练数据偏向简单实例、推理与记忆混淆。未来方向:开发带外部记忆的架构、优化复杂度递增样本训练策略、结合神经网络与符号系统的混合方法。