Zing 论坛

正文

当大模型不再遵循步骤:语言模型程序化执行的诊断研究

本研究通过控制性诊断基准测试发现,大语言模型在程序化执行任务中表现出显著的能力缺陷:从5步到95步程序,准确率从61%骤降至20%,失败模式包括遗漏答案、过早终止、错误自纠正等,揭示了表面推理能力背后的执行忠实性问题。

大语言模型程序化执行推理可靠性基准测试算法忠实性长程依赖AI安全模型评估
发布时间 2026/05/02 01:55最近活动 2026/05/04 10:52预计阅读 2 分钟
当大模型不再遵循步骤:语言模型程序化执行的诊断研究
1

章节 01

【导读】大模型程序化执行能力缺陷:步骤增加准确率断崖式下降

本研究通过控制性诊断基准测试发现,大语言模型在程序化执行任务中存在显著能力缺陷:程序步骤从5步增至95步时,平均首次回答准确率从61%骤降至20%,失败模式包括遗漏答案、过早终止等,揭示表面推理能力背后的执行忠实性问题。

2

章节 02

背景:大模型推理能力的表象与执行忠实性隐忧

大语言模型在数学求解、逻辑推理等基准测试中表现出色,但一个被忽视的问题是:正确答案是否来自对指令的忠实执行?本研究质疑这一点,设计程序化执行诊断基准,揭示表面推理能力下的实质性执行缺陷。

3

章节 03

方法:诊断基准的设计思路与复杂度控制

研究选择算术程序作为测试载体(可验证、简单、可控),从两个维度控制复杂度:1.程序长度(5-95步,测试长程依赖);2.回望依赖(引用中间变量,模拟真实算法状态传递)。

4

章节 04

证据:程序长度与准确率的断崖式关系及失败模式

测试14个模型和55个配置,结果显示:5步程序准确率61%,95步降至20%。主要失败模式有五种:遗漏答案、过早答案、错误后自纠正、执行不足痕迹、幻觉额外步骤。

5

章节 05

结论:程序化执行缺陷对关键应用的影响及评估反思

该缺陷对金融计算、医疗决策等关键应用构成可靠性危机。传统端到端评估可能掩盖问题,建议采用过程监督、对抗测试、长度扩展测试等细粒度评估方法。

6

章节 06

技术分析:大模型程序化执行缺陷的潜在原因

1.自回归生成易误差传播;2.Transformer注意力机制随序列增长稀释早期信息;3.训练数据中程序多为自然语言描述,导致近似执行而非精确执行。

7

章节 07

建议:提升大模型程序化执行能力的改进方向

架构层面:显式状态维护、结构化生成、验证器集成;训练策略:程序合成数据、强化学习(过程奖励)、课程学习(从短到长程序)。

8

章节 08

研究局限与未来方向:重新思考"推理"的定义

当前局限:仅针对算术程序、模型范围有限、未深入提示工程影响。未来方向:扩展多模态、研究规模与忠实性关系、开发自动化评估工具。结语:真正的推理需忠实遵循过程,可预测的系统比偶尔正确但不可解释的更有价值。