Zing 论坛

正文

TrustgameLLM:当大语言模型玩信任博弈时,它们会"看人下菜碟"吗?

一项创新性研究通过信任博弈实验,揭示了大型语言模型在面对不同性别和国籍的虚拟对手时,是否会调整其合作策略。

大语言模型信任博弈AI偏见社会身份公平性行为经济学GitHub项目
发布时间 2026/05/13 19:14最近活动 2026/05/13 19:18预计阅读 2 分钟
TrustgameLLM:当大语言模型玩信任博弈时,它们会"看人下菜碟"吗?
1

章节 01

【导读】TrustgameLLM研究:大语言模型会因社会身份"看人下菜碟"吗?

本研究通过经典信任博弈实验框架,系统性检验大型语言模型(LLM)在互动决策中是否存在基于性别、国籍等社会身份的差异化策略。结果显示LLM确实会根据虚拟对手的社会身份调整合作行为,揭示了训练数据中潜在的偏见模式,对AI公平性研究具有重要意义。

2

章节 02

背景:AI偏见问题与信任博弈的基本概念

当我们与ChatGPT等LLM互动时,是否会因用户背景差异得到不同反应?TrustgameLLM项目针对这一问题展开研究。信任博弈是行为经济学经典范式:玩家A转部分资金给B(金额乘3),B决定返还多少,核心是信任与互惠的双赢或自私损失。

3

章节 03

研究设计:LLM与虚拟人类的博弈实验

研究让LLM扮演博弈一方,另一方是带不同性别(男/女)、国籍特征的虚拟人类(仅文本呈现,无行为差异)。核心假设:若LLM受身份线索影响,面对不同身份对手时投资金额(信任程度)会有系统性差异。

4

章节 04

实验发现:LLM存在基于社会身份的偏见

结果表明LLM会调整合作策略:1.性别差异:部分模型对特定性别对手投资更高,暗示训练数据的性别刻板印象;2.国籍偏见:对不同国籍对手信任水平不同,反映训练语料中国家形象分布不均。这些偏见来自训练数据的统计模式,非开发者有意植入。

5

章节 05

技术实现:可复现的实验框架

TrustgameLLM项目提供完整代码和数据集,特点包括:标准化接口支持多主流LLM调用;可配置虚拟玩家身份特征;完整记录决策过程与结果;对照实验区分身份效应与随机波动,便于复现扩展。

6

章节 06

意义:AI公平性的现实挑战

研究意义远超学术:LLM广泛应用于客服、招聘、信贷等场景,若在简单博弈中就有身份偏见,复杂场景中可能放大不公平后果(如贷款审批因性别/国籍线索产生偏见决策)。

7

章节 07

未来方向:构建更公平AI的路径

未来研究可从四方面展开:1.追溯偏见来源,识别训练数据中的关键语料;2.开发去偏见技术(微调/推理阶段);3.建立偏见检测基准提升透明度;4.扩展跨文化研究,揭示偏见的文化特异性。