# 当大模型不再遵循步骤：语言模型程序化执行的诊断研究

> 本研究通过控制性诊断基准测试发现，大语言模型在程序化执行任务中表现出显著的能力缺陷：从5步到95步程序，准确率从61%骤降至20%，失败模式包括遗漏答案、过早终止、错误自纠正等，揭示了表面推理能力背后的执行忠实性问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-01T17:55:47.000Z
- 最近活动: 2026-05-04T02:52:41.038Z
- 热度: 103.0
- 关键词: 大语言模型, 程序化执行, 推理可靠性, 基准测试, 算法忠实性, 长程依赖, AI安全, 模型评估
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-00817v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-00817v1
- Markdown 来源: ingested_event

---

# 当大模型不再遵循步骤：语言模型程序化执行的诊断研究

## 推理能力的表象与实质

大语言模型在各种推理基准测试上取得了令人瞩目的成绩。从数学问题求解到逻辑推理，从代码生成到科学问答，这些模型展现出了惊人的能力。然而，一个根本性的问题往往被忽视：模型给出的正确答案，是否真的来自于对指令的忠实执行？

这项研究提出了一个尖锐的质疑。研究团队设计了一套控制性的程序化执行诊断基准，专门测试LLM是否能够严格按照给定的步骤执行算法。结果令人警醒：当程序步骤从5步增加到95步时，模型的平均首次回答准确率从61%暴跌至20%。这一发现揭示了一个被掩盖的真相——表面的推理能力可能掩盖了实质性的执行缺陷。

## 诊断基准的设计哲学

### 为什么选择算术程序？

研究采用算术程序作为测试载体，这一选择经过深思熟虑：

1. **可验证性**：算术运算的结果可以精确验证，不存在主观解释空间
2. **简单性**：基本运算（加减乘除）本身不构成认知障碍，失败必然源于执行过程
3. **可控性**：通过调整程序长度和变量依赖关系，可以系统性地增加复杂度

### 复杂度维度

基准测试从两个维度控制任务复杂度：

**程序长度**：从5步到95步的渐进扩展。每一步都是一个简单的算术操作，但整体链条的长度测试了模型的长程依赖维护能力。

**回望依赖（Look-back Dependencies）**：程序中的某些步骤需要引用之前计算的中间变量。这种设计模拟了真实算法中的状态传递，测试模型是否能够准确追踪和检索历史信息。

## 核心发现：能力断崖

### 整体性能趋势

研究测试了14个模型和55个数据集配置，结果呈现出清晰的下降趋势：

| 程序长度 | 平均首次回答准确率 |
|----------|-------------------|
| 5步      | 61%               |
| 95步     | 20%               |

这一断崖式的下降表明，当前LLM在程序化执行方面存在根本性的局限。即使是最先进的模型，在面对长程序时也表现出不可靠性。

### 失败模式的分类

通过生成级别的细粒度分析，研究团队识别出五种主要的失败模式：

#### 1. 遗漏答案（Missing Answers）

模型执行了程序的部分步骤，但最终没有输出结果。这可能源于对任务目标的误解，或者在长序列生成中"忘记"了初始指令。

#### 2. 过早答案（Premature Answers）

模型在程序尚未执行完毕时就给出了答案。这反映了模型倾向于"猜测"或基于部分信息做出判断，而非严格遵循步骤直到完成。

#### 3. 错误后的自纠正（Self-Correction After Initial Error）

模型在生成过程中意识到之前的错误并尝试修正，但这种修正往往是不完整的或引入新的错误。有趣的是，这种"反思"行为有时反而降低了最终准确率。

#### 4. 执行不足的痕迹（Under-Executed Traces）

模型声称执行了某些步骤，但实际计算是不完整的或错误的。这种"幻觉式执行"最难检测，因为表面上模型遵循了程序结构。

#### 5. 幻觉额外步骤（Hallucinated Extra Steps）

模型在程序规定之外添加了额外的计算步骤。这表明模型可能将自身的"直觉"或训练数据中的模式凌驾于明确指令之上。

## 对AI系统的实际影响

### 可靠性危机

这些发现对依赖LLM的关键应用敲响了警钟。在以下场景中，程序化执行的可靠性至关重要：

- **金融计算**：税务计算、利息计算、风险评估
- **医疗决策**：剂量计算、诊断流程、治疗方案
- **法律分析**：条款引用、判例检索、合规检查
- **工程系统**：控制算法、安全协议、故障处理

如果模型不能忠实执行给定的程序，即使整体准确率看起来不错，也可能在关键时刻产生灾难性后果。

### 评估方法的反思

传统的端到端准确率评估可能掩盖了严重的可靠性问题。一个模型可能在90%的测试用例上给出正确答案，但在剩下的10%中以不可预测的方式失败。对于高风险应用，这种不可预测性比低准确率本身更危险。

研究建议采用更细粒度的评估方法：

1. **过程监督**：不仅评估最终答案，还要验证中间步骤的正确性
2. **对抗测试**：专门设计诱导模型偏离指令的测试用例
3. **长度扩展测试**：评估模型能力随任务复杂度增加的衰减模式

## 技术层面的解释

### 自回归生成的局限

当前LLM的自回归生成机制可能天然不适合严格的程序化执行。每一步生成都基于之前生成的token，这种累积式的过程容易引入误差传播。

### 注意力机制的瓶颈

长程序执行需要模型在生成过程中持续关注和引用初始指令。然而，Transformer的注意力机制可能随着序列增长而稀释对早期信息的关注，导致"指令遗忘"。

### 训练数据的偏差

模型在训练数据中接触到的"程序"往往是自然语言描述而非严格的算法步骤。这种模糊性可能导致模型学会了"近似"执行而非"精确"执行。

## 可能的改进方向

### 架构层面的探索

1. **显式状态维护**：为模型提供显式的寄存器或内存机制，用于存储和检索中间变量
2. **结构化生成**：约束生成空间，确保输出严格遵循预定的程序模板
3. **验证器集成**：在生成过程中引入外部验证器，检查每一步的正确性

### 训练策略的调整

1. **程序合成数据**：在训练集中增加大量合成的、严格格式的程序执行示例
2. **强化学习**：使用过程奖励而非仅终端奖励来训练模型
3. **课程学习**：从短程序开始逐步增加长度，培养模型的长程执行能力

## 研究局限与未来工作

### 当前局限

1. **领域限制**：研究仅针对算术程序，其他领域（如符号推理、逻辑推导）的表现尚待验证
2. **模型范围**：虽然测试了14个模型，但可能遗漏某些专门优化的变体
3. **提示工程**：研究未深入探索不同提示格式对执行忠实性的影响

### 未来研究方向

- 扩展到多模态场景（视觉指令执行）
- 研究模型规模与执行忠实性的关系
- 开发自动化的程序化执行质量评估工具

## 结语：重新思考"推理"的定义

这项研究迫使我们重新思考"推理"这一概念。如果模型能够正确回答数学问题，但不能按照给定的步骤执行程序，我们是否应该称其为"会推理"？

或许，真正的推理能力不仅仅是得到正确答案，而是能够忠实、可靠地遵循推理过程。从这个角度看，当前LLM还有很长的路要走。在追求更高准确率的同时，我们同样需要关注执行的忠实性和可靠性——因为在许多应用场景中，一个可预测地犯错的系统，比一个偶尔正确但行为不可解释的系统更有价值。
