章节 01
大语言模型概率推理能力基准测试:标准题表现优异,反直觉题暴露核心缺陷
本文解读一项针对大语言模型概率推理能力的系统性基准测试研究。研究团队对8款主流模型进行评估,发现模型在标准离散概率问题上准确率达96%,但反直觉问题上骤降至59%;还揭示token偏见(语义等价换词后性能降超20%)和误导性提示(性能降34%)对模型表现的显著影响。原作者为Luca Avena、Gianmarco Bet、Bernardo Busoni,来源为arXiv(2026-06-05发布,链接:https://arxiv.org/abs/2606.07515)。