章节 01
【导读】大模型"自我怀疑"现象的真相:提示词框架与答案格式的交互效应
针对Qwen2.5-Math的实验研究发现,将已知可解数学题描述为"未解决"或"开放问题"时,模型准确率从60%降至45%。但进一步对照实验揭示,这种现象更多是提示词格式与答案呈现方式的交互效应,而非模型推理能力的真实退化。本研究探讨了模型信心对数学推理表现的影响及相关启示。
正文
一项针对Qwen2.5-Math的实验研究发现,将已知可解的数学题描述为"未解决"或"开放问题"时,模型准确率从60%降至45%。但进一步的对照实验揭示了一个更微妙的真相:这种"自我怀疑"现象更多是提示词格式与答案呈现方式的交互效应,而非模型推理能力的真实退化。
章节 01
针对Qwen2.5-Math的实验研究发现,将已知可解数学题描述为"未解决"或"开放问题"时,模型准确率从60%降至45%。但进一步对照实验揭示,这种现象更多是提示词格式与答案呈现方式的交互效应,而非模型推理能力的真实退化。本研究探讨了模型信心对数学推理表现的影响及相关启示。
章节 02
大型语言模型在数学推理任务上的表现是AI研究核心关注点,但模型"信心"是否影响表现较少被探讨。本实验由rishabhsai发起,使用Qwen2.5-Math-1.5B-Instruct模型,通过系统性改变问题描述框架,观察模型推理行为变化。
章节 03
采用"配对框架"设计,同一组已知可解题分两种语境:
以精确匹配(最终答案与标准答案完全一致)为主要标准,避免评分模糊性。
固定随机种子、最大生成长度(384 tokens)、模型温度等参数,保存所有原始生成结果。
章节 04
| 框架类型 | 精确匹配准确率 |
|---|---|
| 中性框架 | 60% |
| 开放/未解决框架 | 45% |
| 差异 | -15个百分点 |
| 此结果被称为"可观察的自我怀疑"。 |
引入"答案优先格式"(先给答案再推理)后:
| 框架类型 | 答案优先格式准确率 |
|---|---|
| 中性框架 | 55% |
| 开放/未解决框架 | 55% |
| 差异 | 0个百分点 |
最初准确率下降是提示格式与答案呈现方式的交互效应:中性框架自由输出更结构化,开放框架诱导冗长试探性回答降低精确匹配率;强制答案优先则表现一致。
章节 05
章节 06
章节 07
扩展到更多模型架构、更大数据集,采用更精细评估指标(逐步推理正确率、置信度校准等)。
章节 08
本研究揭示提示词框架、答案格式、评估方法等多重因素对模型表现的交织作用。提醒AI研究者和开发者:解读模型表现需谨慎,区分真正的能力缺陷与测量方法的局限,以构建更可靠可信的智能系统。