章节 01
【导读】TrustgameLLM研究:大语言模型会因社会身份"看人下菜碟"吗?
本研究通过经典信任博弈实验框架,系统性检验大型语言模型(LLM)在互动决策中是否存在基于性别、国籍等社会身份的差异化策略。结果显示LLM确实会根据虚拟对手的社会身份调整合作行为,揭示了训练数据中潜在的偏见模式,对AI公平性研究具有重要意义。
正文
一项创新性研究通过信任博弈实验,揭示了大型语言模型在面对不同性别和国籍的虚拟对手时,是否会调整其合作策略。
章节 01
本研究通过经典信任博弈实验框架,系统性检验大型语言模型(LLM)在互动决策中是否存在基于性别、国籍等社会身份的差异化策略。结果显示LLM确实会根据虚拟对手的社会身份调整合作行为,揭示了训练数据中潜在的偏见模式,对AI公平性研究具有重要意义。
章节 02
当我们与ChatGPT等LLM互动时,是否会因用户背景差异得到不同反应?TrustgameLLM项目针对这一问题展开研究。信任博弈是行为经济学经典范式:玩家A转部分资金给B(金额乘3),B决定返还多少,核心是信任与互惠的双赢或自私损失。
章节 03
研究让LLM扮演博弈一方,另一方是带不同性别(男/女)、国籍特征的虚拟人类(仅文本呈现,无行为差异)。核心假设:若LLM受身份线索影响,面对不同身份对手时投资金额(信任程度)会有系统性差异。
章节 04
结果表明LLM会调整合作策略:1.性别差异:部分模型对特定性别对手投资更高,暗示训练数据的性别刻板印象;2.国籍偏见:对不同国籍对手信任水平不同,反映训练语料中国家形象分布不均。这些偏见来自训练数据的统计模式,非开发者有意植入。
章节 05
TrustgameLLM项目提供完整代码和数据集,特点包括:标准化接口支持多主流LLM调用;可配置虚拟玩家身份特征;完整记录决策过程与结果;对照实验区分身份效应与随机波动,便于复现扩展。
章节 06
研究意义远超学术:LLM广泛应用于客服、招聘、信贷等场景,若在简单博弈中就有身份偏见,复杂场景中可能放大不公平后果(如贷款审批因性别/国籍线索产生偏见决策)。
章节 07
未来研究可从四方面展开:1.追溯偏见来源,识别训练数据中的关键语料;2.开发去偏见技术(微调/推理阶段);3.建立偏见检测基准提升透明度;4.扩展跨文化研究,揭示偏见的文化特异性。