正文

TrustgameLLM：当大语言模型玩信任博弈时，它们会"看人下菜碟"吗？

一项创新性研究通过信任博弈实验，揭示了大型语言模型在面对不同性别和国籍的虚拟对手时，是否会调整其合作策略。

大语言模型信任博弈AI偏见社会身份公平性行为经济学GitHub项目

发布时间 2026/05/13 19:14最近活动 2026/05/13 19:18预计阅读 2 分钟

章节 01

【导读】TrustgameLLM研究：大语言模型会因社会身份"看人下菜碟"吗？

本研究通过经典信任博弈实验框架，系统性检验大型语言模型（LLM）在互动决策中是否存在基于性别、国籍等社会身份的差异化策略。结果显示LLM确实会根据虚拟对手的社会身份调整合作行为，揭示了训练数据中潜在的偏见模式，对AI公平性研究具有重要意义。

章节 02

当我们与ChatGPT等LLM互动时，是否会因用户背景差异得到不同反应？TrustgameLLM项目针对这一问题展开研究。信任博弈是行为经济学经典范式：玩家A转部分资金给B（金额乘3），B决定返还多少，核心是信任与互惠的双赢或自私损失。

章节 03

研究让LLM扮演博弈一方，另一方是带不同性别（男/女）、国籍特征的虚拟人类（仅文本呈现，无行为差异）。核心假设：若LLM受身份线索影响，面对不同身份对手时投资金额（信任程度）会有系统性差异。

章节 04

结果表明LLM会调整合作策略：1.性别差异：部分模型对特定性别对手投资更高，暗示训练数据的性别刻板印象；2.国籍偏见：对不同国籍对手信任水平不同，反映训练语料中国家形象分布不均。这些偏见来自训练数据的统计模式，非开发者有意植入。

章节 05

TrustgameLLM项目提供完整代码和数据集，特点包括：标准化接口支持多主流LLM调用；可配置虚拟玩家身份特征；完整记录决策过程与结果；对照实验区分身份效应与随机波动，便于复现扩展。

章节 06

研究意义远超学术：LLM广泛应用于客服、招聘、信贷等场景，若在简单博弈中就有身份偏见，复杂场景中可能放大不公平后果（如贷款审批因性别/国籍线索产生偏见决策）。

章节 07

未来研究可从四方面展开：1.追溯偏见来源，识别训练数据中的关键语料；2.开发去偏见技术（微调/推理阶段）；3.建立偏见检测基准提升透明度；4.扩展跨文化研究，揭示偏见的文化特异性。