正文

当大模型开始"自我怀疑"：提示词框架如何影响数学推理能力

一项针对Qwen2.5-Math的实验研究发现，将已知可解的数学题描述为"未解决"或"开放问题"时，模型准确率从60%降至45%。但进一步的对照实验揭示了一个更微妙的真相：这种"自我怀疑"现象更多是提示词格式与答案呈现方式的交互效应，而非模型推理能力的真实退化。

大语言模型数学推理提示工程自我怀疑Qwen模型评估AI信心校准

发布时间 2026/06/12 00:51最近活动 2026/06/12 01:18预计阅读 2 分钟

$当大模型开始"自我怀疑"：提示词框架如何影响数学推理能力$

章节 01

【导读】大模型"自我怀疑"现象的真相：提示词框架与答案格式的交互效应

针对Qwen2.5-Math的实验研究发现，将已知可解数学题描述为"未解决"或"开放问题"时，模型准确率从60%降至45%。但进一步对照实验揭示，这种现象更多是提示词格式与答案呈现方式的交互效应，而非模型推理能力的真实退化。本研究探讨了模型信心对数学推理表现的影响及相关启示。

章节 02

研究背景与动机

大型语言模型在数学推理任务上的表现是AI研究核心关注点，但模型"信心"是否影响表现较少被探讨。本实验由rishabhsai发起，使用Qwen2.5-Math-1.5B-Instruct模型，通过系统性改变问题描述框架，观察模型推理行为变化。

章节 03

实验设计与方法论

核心实验框架

采用"配对框架"设计，同一组已知可解题分两种语境：

中性框架：直接呈现问题，无难度暗示
开放/未解决框架：添加"开放性问题""尚无已知解法"等引导语

评估指标

以精确匹配（最终答案与标准答案完全一致）为主要标准，避免评分模糊性。

控制变量

固定随机种子、最大生成长度（384 tokens）、模型温度等参数，保存所有原始生成结果。

章节 04

初步发现与深入探究

初步结果

框架类型	精确匹配准确率
中性框架	60%
开放/未解决框架	45%
差异	-15个百分点
此结果被称为"可观察的自我怀疑"。

后续对照实验

引入"答案优先格式"（先给答案再推理）后：

框架类型	答案优先格式准确率
中性框架	55%
开放/未解决框架	55%
差异	0个百分点

关键洞察

最初准确率下降是提示格式与答案呈现方式的交互效应：中性框架自由输出更结构化，开放框架诱导冗长试探性回答降低精确匹配率；强制答案优先则表现一致。

章节 05

真正触发"自我怀疑"的情境

真正开放或未充分定义的问题：缺乏足够信息或属于未解决难题时，模型输出充满"无法解决""信息不足"等表述。
可解问题：即使开放框架下，自我怀疑表现有限，更多是答案格式变化而非推理质量下降。

章节 06

对AI系统设计的启示

提示工程重要性：提示词设计影响显著，需系统性测试不同框架效果。
评估指标局限：精确匹配掩盖实际质量差异，需更细致分析思维过程。
模型信心可控性：可通过提示调控（机遇：场景调整谨慎度；风险：恶意提示诱导犹豫或过度自信）。

章节 07

局限性与未来方向

局限性

样本规模有限（20-50个问题）
单一模型（仅Qwen2.5-Math-1.5B-Instruct）
评估简化（精确匹配无法捕捉部分正确或推理质量）

未来方向

扩展到更多模型架构、更大数据集，采用更精细评估指标（逐步推理正确率、置信度校准等）。

章节 08

结语

本研究揭示提示词框架、答案格式、评估方法等多重因素对模型表现的交织作用。提醒AI研究者和开发者：解读模型表现需谨慎，区分真正的能力缺陷与测量方法的局限，以构建更可靠可信的智能系统。