Zing 论坛

正文

揭示大语言模型API的复现性幻觉:相同提示,不同答案

一项针对Nature Machine Intelligence投稿的研究,系统性地暴露了主流大语言模型API在相同提示下输出不一致的复现性问题。

大语言模型可复现性API可靠性AI研究方法论模型评估科学实验
发布时间 2026/05/11 09:18最近活动 2026/05/11 10:27预计阅读 2 分钟
揭示大语言模型API的复现性幻觉:相同提示,不同答案
1

章节 01

【导读】大语言模型API复现性幻觉:相同提示为何输出不同?

一项针对Nature Machine Intelligence投稿的研究系统性揭示了主流大语言模型(LLM)API在相同提示下输出不一致的复现性问题。该问题不仅影响用户体验,更触及科学研究与实际应用的核心——可复现性。genai-reproducibility-protocol项目正量化这一被忽视的“复现性幻觉”,并提出标准化解决方案。

2

章节 02

背景:复现性危机动摇AI研究根基

可复现性是科学研究的基石。但LLM领域中,即使控制提示词、模型版本等变量,API调用仍会产生不同输出,侵蚀学术研究可靠性。更严重的是,许多研究者未充分意识到或报告此问题,仅呈现“代表性”输出,可能误导对模型能力的判断。

3

章节 03

项目与方法论:标准化测量复现性问题

genai-reproducibility-protocol项目已向Nature Machine Intelligence投稿(2026年),核心目标是建立标准化协议测量LLM API复现性。主要贡献包括:标准化测试协议、多模型对比分析、影响因素量化、最佳实践建议。测量框架采用多次调用(100+次),指标涵盖响应一致性率、语义相似度分布、关键信息变异、置信度校准等。

4

章节 04

技术根源:相同提示输出差异的四大原因

LLM API输出不一致的根源包括:1.随机性机制(采样策略引入变异,即使温度为0仍可能有随机);2.硬件与并行计算(GPU调度导致运算顺序差异,累积影响输出);3.API不透明性(商用API的黑箱特性,用户无法获知硬件/权重/参数);4.模型更新漂移(后台静默更新权重未披露)。

5

章节 05

研究发现:复现性问题比预期更严重

初步结果显示,某些任务(如代码生成、数学推理)的一致性率低于50%,意味着论文中的“典型”结果可能只是随机样本。更担忧的是,关键信息变异存在系统性偏差,模型可能给出矛盾事实陈述却无警告机制。

6

章节 06

影响与建议:学术界与工业界的应对策略

对学术界:呼吁强制报告多次运行统计结果、开源实验协议、建立复现性基准、区分探索性与验证性研究。 对工业界:建议采用输出聚合(多次调用投票)、确定性模式、版本锁定、内部置信度评估机制,降低业务风险。

7

章节 07

未来方向:待解决问题与开放讨论

项目开启了LLM可靠性的重要对话,但仍有问题待解:如何平衡创造性与确定性?API提供商应承担多少透明度责任?是否有技术方案根本解决复现性?项目团队将持续更新协议,呼吁社区共同参与解决这一议题。