章节 01
递归推理的困境:神经网络推理能力的根本性局限(导读)
当前大型语言模型(LLM)在思维链提示技术加持下展现出令人印象深刻的推理能力,但本文揭示其在递归推理任务上存在根本性局限:虽能通过思维链解决复杂问题,却无法有效泛化到更深层次的递归调用。研究指出,真正的递归推理需要显式的调用栈机制,这是当前神经网络架构的核心缺失。
正文
本文揭示当前大语言模型在递归推理任务上的根本性局限,发现模型虽能通过思维链解决复杂问题,但无法有效泛化到更深层次的递归调用,指出真正的递归推理需要显式的调用栈机制。
章节 01
当前大型语言模型(LLM)在思维链提示技术加持下展现出令人印象深刻的推理能力,但本文揭示其在递归推理任务上存在根本性局限:虽能通过思维链解决复杂问题,却无法有效泛化到更深层次的递归调用。研究指出,真正的递归推理需要显式的调用栈机制,这是当前神经网络架构的核心缺失。
章节 02
大型语言模型(LLM)借助思维链技术在数学求解、逻辑谜题等任务中表现出类推理能力,但这种能力是否等同于人类的真正推理仍存疑。递归作为人类思维的核心机制(如数学归纳法、分治算法),成为检验LLM推理本质的试金石。本文探讨的核心问题是:神经网络推理器能否有效利用递归分解解决复杂问题?
章节 03
实验设计围绕本质递归、可控深度、明确答案的任务展开,包括:树遍历任务(前序/中序/后序遍历二叉树)、分治算法(归并排序/快速排序推理)、递归数学问题(汉诺塔、斐波那契数列推导)、嵌套结构解析(JSON/XML解析、括号匹配),以系统性评估模型的递归能力。
章节 04
实验结果显示,模型在训练深度相似的递归任务上表现良好,但超出训练深度时性能急剧崩溃(如训练深度≤5的模型在深度10任务上几乎完全失败)。典型错误模式包括:栈溢出模拟(混淆不同层级状态)、过早终止(未达基本情况即停止)、无限循环倾向(重复调用同一状态),暗示模型缺乏真正的调用栈机制。
章节 05
从计算理论角度分析,Transformer等架构本质是有限状态机,注意力机制的访问是同时平面的而非分层有状态;位置编码仅提供绝对/相对位置,无法捕捉动态层级结构;LLM推理更接近统计模式匹配而非符号程序执行,导致深度泛化失败。
章节 06
为解决递归局限,研究探索了架构改进方案:显式调用栈机制(压入/弹出状态,提升深度泛化)、层级位置编码(同时编码序列位置与递归深度)、递归感知训练目标(监督栈状态变化),这些改进显著扩展了模型处理递归深度的范围。
章节 07
研究对AI发展的启示包括:需重新审视能力评估(强调分布外与组合泛化)、架构创新的必要性(单纯规模扩张不足)、神经-符号融合的前景。未来方向包括:在更广泛任务验证发现、探索递归专用架构、仿生人类递归处理机制、开发更优评估基准。