正文

大语言模型为何会在多步推理中"走神"？——关于程序执行忠实性的诊断研究

一项新研究揭示了LLM在逐步程序执行中的隐藏缺陷：尽管最终答案可能正确，模型却经常不忠实地遵循指令流程，随着步骤增加准确率急剧下降。

大语言模型程序执行推理能力多步推理AI评估忠实性基准测试机器学习

发布时间 2026/05/02 01:55最近活动 2026/05/05 02:19预计阅读 4 分钟

章节 01

【导读】大语言模型多步推理中的"走神"现象——程序执行忠实性诊断研究

一项新研究揭示了LLM在逐步程序执行中的隐藏缺陷：尽管最终答案可能正确，模型却经常不忠实地遵循指令流程，随着步骤增加准确率急剧下降。该研究通过构建诊断基准，分析了模型的失败模式，指出当前LLM在长程程序执行中存在系统性瓶颈，对高风险应用场景具有重要警示意义。

章节 02

研究背景：正确答案背后的过程隐患

大语言模型（LLMs）在各类推理基准测试中表现出色，从数学问题求解到代码生成，似乎展现出强大的逻辑思维能力。然而，一个根本性的问题长期被忽视：当模型给出正确答案时，它是否真的按照我们指定的步骤忠实执行了程序？

来自研究机构的一项最新诊断性研究指出，最终答案的准确率并不能反映模型对指令的忠实执行程度。换句话说，模型可能通过"捷径"或"猜测"得到正确答案，而非严格遵循我们预设的推理路径。这种现象对于需要精确程序执行的应用场景——如科学计算、金融分析和自动化决策——具有重要警示意义。

章节 03

诊断方法：构建程序执行的压力测试基准

为了系统性地评估LLM的程序执行能力，研究团队设计了一个精巧的受控诊断基准。该基准的核心设定是：给模型提供一个逐步执行的算术算法和两个数值输入，要求模型返回最终计算值。

这个基准的设计有几个关键特点：

简单操作与复杂结构的结合：算法仅使用基础算术运算（加减乘除），但通过两种机制增加复杂度——算法长度的扩展，以及中间变量之间的"回望依赖"（look-back dependencies）。后者意味着后续步骤可能需要引用前面多步计算的中间结果，模拟真实编程中的变量复用场景。

精细控制的难度梯度：测试覆盖从5步到95步的算法长度，形成清晰的难度递进。这使得研究者能够精确测量模型性能如何随复杂度增加而衰减。

多模型、多数据集的广泛验证：研究涵盖了14个不同的语言模型和55个数据集变体，确保结论的普适性。

章节 04

核心发现：步骤增加导致忠实度急剧下降

研究结果揭示了一个令人担忧的趋势：随着程序步骤的增加，模型的执行准确率急剧下降。

数量化的性能衰减

数据显示，平均首次回答准确率从5步程序的61%骤降至95步程序的20%。这种近乎线性的衰减曲线表明，当前LLM在处理长程程序执行时存在系统性瓶颈。值得注意的是，这里的"准确率"衡量的是模型是否严格按照给定步骤执行，而非最终数值是否正确。

五种典型的执行失败模式

通过生成级别的细粒度分析，研究者识别出模型在执行过程中出现的五类典型错误：

1. 遗漏答案（Missing Answers）：模型在执行过程中跳过了某些步骤的输出，导致推理链条断裂。

2. 过早终止（Premature Answers）：模型在未完成全部步骤时就给出了答案，表现出"急躁"的执行倾向。

3. 错误后自纠正（Self-correction after Initial Error）：模型在初期犯错后尝试修正，但这种修正往往破坏了程序的原定流程，导致后续步骤混乱。

4. 执行不足（Under-executed Traces）：模型声称完成了某些步骤，但实际上并未执行相应的计算操作。

5. 幻觉额外步骤（Hallucinated Extra Steps）：模型自行添加了不存在的步骤，偏离了给定算法。

这些失败模式共同指向一个核心问题：LLM在执行长程程序时缺乏稳定的"执行纪律"，容易受到内部生成动态的影响而偏离预定路径。

章节 05

深层启示：表象推理与真实执行的差距

这项研究最重要的贡献在于揭示了表象推理能力与真实程序执行能力之间的显著差距。

对现有评估方法的挑战

传统的LLM评估主要关注最终答案的正确性，这种"结果导向"的评估方式可能严重高估了模型的真实能力。一个模型可能通过模式匹配或统计关联猜出正确答案，却从未真正理解或执行所需的推理过程。

这对于高风险应用场景尤为重要。在医疗诊断、法律分析或工程计算中，过程的可解释性和可审计性往往与结果的正确性同等重要。如果无法确保模型忠实执行指定程序，其输出结果的可靠性将大打折扣。

对模型架构的反思

研究结果也引发了对当前Transformer架构的深层思考。自回归生成机制使得模型在每一步都面临"继续生成"与"遵循指令"之间的张力。随着生成序列的延长，这种张力可能导致模型逐渐"走神"，优先考虑局部流畅性而非全局忠实性。

章节 06

实践建议与未来研究方向

对应用开发者的建议

对于构建基于LLM的应用系统的开发者，这项研究提供了几点实用建议：

分解复杂任务：将长程程序拆分为较短的子程序，通过显式的中间检查点确保每一步的正确执行。

增加执行验证：在关键步骤引入外部验证机制，如代码解释器或符号计算引擎，而非完全依赖模型的自声明执行。

设计过程感知的提示：在提示中明确要求模型展示中间计算步骤，并对其格式进行严格规范，便于后续解析和验证。

对模型研究的启示

从研究角度看，这项工作开辟了几个值得深入探索的方向：

程序执行的神经机制：通过干预实验探究模型在执行程序时激活的特定回路，理解"忠实执行"与"走捷径"的神经基础差异。

训练数据的偏见分析：调查预训练语料中程序代码与自然语言的比例及质量，分析这是否影响模型的执行纪律。

架构改进的可能性：探索在保持自回归生成优势的同时，增强模型对长程结构化指令的遵循能力，如引入显式的执行栈或记忆机制。

章节 07

结语：LLM可靠性的冷静思考

这项诊断性研究以一种冷静而精确的方式，揭示了当前大语言模型在程序执行方面的真实局限。它提醒我们，在惊叹于LLM的"智能"表象时，不应忽视其作为计算系统的基本可靠性问题。

对于追求将LLM应用于严肃生产环境的从业者和研究者而言，这项工作是一个及时的警示：在部署这些强大的模型之前，我们需要更深入地理解它们的失败模式，并构建相应的安全保障机制。毕竟，一个偶尔"走神"的智能助手，在关键任务中可能带来的风险，远比一个能力有限但行为可预测的系统更大。