章节 01
【导读】大语言模型概率推理能力基准测试核心要点
本研究针对大语言模型(LLM)的离散概率推理能力展开基准测试,结果显示:LLM在常规概率问题上平均准确率达96%,但面对反直觉问题时骤降至59%;模型对提示词表述极度敏感,措辞变化可导致性能下降超20%;思维链提示在反直觉问题上提升有限。研究来源为arXiv 2026年6月5日发布的论文《How reliable are LLMs when it comes to playing dice?》(链接:http://arxiv.org/abs/2606.07515v1),提醒高风险决策领域需谨慎使用LLM。