章节 01
【导读】大语言模型中的可识别受害者效应:叙事如何战胜数字
本文探讨大语言模型(LLM)在处理涉及人类生命决策时存在的“可识别受害者效应”(IVE)——即倾向于优先选择拯救具体可识别个体而非更多抽象群体。研究发现,经过RLHF对齐训练的模型偏差更明显,更强推理能力反而可能“合理化”情感驱动选择。文章还分析背后机制、实际应用影响及缓解策略,提醒需在AI“人性化”与理性公正间找到平衡。
正文
探讨大语言模型在处理涉及人类生命的决策时表现出的认知偏差——可识别受害者效应,以及模型对齐和推理能力如何放大这种偏差。
章节 01
本文探讨大语言模型(LLM)在处理涉及人类生命决策时存在的“可识别受害者效应”(IVE)——即倾向于优先选择拯救具体可识别个体而非更多抽象群体。研究发现,经过RLHF对齐训练的模型偏差更明显,更强推理能力反而可能“合理化”情感驱动选择。文章还分析背后机制、实际应用影响及缓解策略,提醒需在AI“人性化”与理性公正间找到平衡。
章节 02
可识别受害者效应由Thomas Schelling于1968年提出,描述人类对具体个体的同情心远超过抽象群体。经典实验中,展示特定儿童的故事和照片比“数千儿童等待器官移植”的统计数据获得更多捐款,揭示人类决策易被具体叙事触发而非数字。
章节 03
研究团队采用二元选择任务,控制三个变量:
章节 04
实验结果显示:
章节 05
偏差来源包括:
章节 06
应用影响:
章节 07
研究揭示悖论:让AI“人性化”可能继承人类偏差。需思考对齐目标(模仿人类vs更理性公正)、效率与公平的权衡。技术需结合心理学、行为经济学。结语提醒:AI非纯粹理性机器,部署高风险场景时需应对偏差,平衡“像人”与“理性”,服务人类福祉。同时反思:人类自身能否做到公正决策?