正文

当大模型不再遵循步骤：语言模型程序化执行的诊断研究

本研究通过控制性诊断基准测试发现，大语言模型在程序化执行任务中表现出显著的能力缺陷：从5步到95步程序，准确率从61%骤降至20%，失败模式包括遗漏答案、过早终止、错误自纠正等，揭示了表面推理能力背后的执行忠实性问题。

大语言模型程序化执行推理可靠性基准测试算法忠实性长程依赖AI安全模型评估

发布时间 2026/05/02 01:55最近活动 2026/05/04 10:52预计阅读 2 分钟

章节 01

【导读】大模型程序化执行能力缺陷：步骤增加准确率断崖式下降

本研究通过控制性诊断基准测试发现，大语言模型在程序化执行任务中存在显著能力缺陷：程序步骤从5步增至95步时，平均首次回答准确率从61%骤降至20%，失败模式包括遗漏答案、过早终止等，揭示表面推理能力背后的执行忠实性问题。

章节 02

大语言模型在数学求解、逻辑推理等基准测试中表现出色，但一个被忽视的问题是：正确答案是否来自对指令的忠实执行？本研究质疑这一点，设计程序化执行诊断基准，揭示表面推理能力下的实质性执行缺陷。

章节 03

研究选择算术程序作为测试载体（可验证、简单、可控），从两个维度控制复杂度：1.程序长度（5-95步，测试长程依赖）；2.回望依赖（引用中间变量，模拟真实算法状态传递）。

章节 04

测试14个模型和55个配置，结果显示：5步程序准确率61%，95步降至20%。主要失败模式有五种：遗漏答案、过早答案、错误后自纠正、执行不足痕迹、幻觉额外步骤。

章节 05

该缺陷对金融计算、医疗决策等关键应用构成可靠性危机。传统端到端评估可能掩盖问题，建议采用过程监督、对抗测试、长度扩展测试等细粒度评估方法。

章节 06

1.自回归生成易误差传播；2.Transformer注意力机制随序列增长稀释早期信息；3.训练数据中程序多为自然语言描述，导致近似执行而非精确执行。

章节 07

架构层面：显式状态维护、结构化生成、验证器集成；训练策略：程序合成数据、强化学习（过程奖励）、课程学习（从短到长程序）。

章节 08

当前局限：仅针对算术程序、模型范围有限、未深入提示工程影响。未来方向：扩展多模态、研究规模与忠实性关系、开发自动化评估工具。结语：真正的推理需忠实遵循过程，可预测的系统比偶尔正确但不可解释的更有价值。