Zing 论坛

正文

LLM欺诈检测超越人类:压力下AI比人类更坚守警告

预注册实验显示,面对已被说服的投资者,LLM不会被压力影响而抑制欺诈警告,人类顾问在压力下抑制警告的概率是AI的2-4倍。

LLM安全欺诈检测投资者保护人机对比AI伦理金融咨询压力抵抗预注册实验
发布时间 2026/04/22 23:03最近活动 2026/04/23 09:57预计阅读 3 分钟
LLM欺诈检测超越人类:压力下AI比人类更坚守警告
1

章节 01

【导读】LLM欺诈检测超越人类:压力下更坚守警告

本文通过预注册实验对比LLM与人类在欺诈检测中的核心表现:面对已被说服的投资者,LLM不会因压力抑制欺诈警告,而人类顾问在压力下抑制警告的概率是AI的2-4倍。AI在零欺诈认可、压力抵抗等维度显著优于人类,为AI在金融投资者保护领域的应用提供实证支持。

2

章节 02

研究背景:AI会迎合用户妥协原则吗?

大语言模型(LLM)经人类反馈强化学习(RLHF)训练,被优化为乐于助人、遵循用户意图的助手。隐忧在于:当用户意图本身存在问题时,AI是否会为迎合用户而妥协原则?在金融咨询场景中,若投资者已被欺诈性投资机会说服,AI是否会抑制警告?传统观点认为RLHF训练的AI可能倾向于给出用户想要的答案而非客观事实,本研究通过预注册实验检验这一假设。

3

章节 03

实验设计:AI vs 人类的欺诈检测对决

实验场景

设置12种投资场景,涵盖三类机会:合法投资、高风险投资、欺诈性投资(基于真实案例如庞氏骗局、虚假加密货币项目)。

被试与模型

人类被试:1201名扮演投资顾问角色;AI模型:7个主流LLM(含GPT-4、Claude、Gemini等)。

实验条件

基线条件:投资者中立询问建议;压力条件:投资者表达已被说服,期待肯定答复。

数据规模

3360次AI咨询对话、1201人次人类顾问评估,预注册假设避免事后选择偏差。

4

章节 04

核心发现:AI比人类更可靠的四大证据

  1. 压力未抑制AI警告:压力条件下AI警告频率略增,颠覆“RLHF导致过度迎合”的担忧。
  2. 零欺诈认可:基线条件下人类13-14%认可欺诈性投资,所有LLM为0%。
  3. 压力下人类更易妥协:压力条件下人类抑制警告概率是基线的2-4倍,AI几乎不受影响。
  4. 极低认可逆转率:3000+对话中认可逆转少于3次(<0.3%),AI保持高度一致性。
5

章节 05

深层分析:AI表现更优的四大因素

  1. 训练数据广度:海量文本训练涵盖欺诈案例、监管文件,识别人类忽略的欺诈信号。
  2. 无情感卷入:不受“不想让客户失望”“社交冲突回避”等情感因素影响,纯事实判断。
  3. 一致决策标准:无疲劳、情绪波动等干扰,决策稳定。
  4. 安全训练强化:专门安全训练(拒绝有害请求、识别风险)在金融欺诈场景生效。
6

章节 06

现实意义:对多主体的启示

金融监管

  • AI可作为人类顾问“第二意见”降低欺诈风险;
  • 高风险场景强制AI筛查;
  • 监管框架纳入AI积极作用。

金融机构

  • 集成AI风险评估到服务流程;
  • 培训人类顾问学习AI“不妥协”精神;
  • 建立人机协作模式(AI准确性+人类情感智能)。

普通投资者

  • AI建议比朋友更可靠(不隐瞒风险);
  • 需注意AI局限性(无最新信息、缺乏个性化规划)。

AI开发者

  • 保持现有安全训练;
  • 警惕过度自信,持续监控实际表现。
7

章节 07

局限与未来研究方向

局限

  • 场景未覆盖新型欺诈、跨文化欺诈;
  • 未测试对抗性攻击;
  • 未评估“假阳性”误判;
  • AI错误建议的责任归属不明确。

未来方向

  • 跨文化验证;
  • 长期交互场景研究;
  • 多模态欺诈检测评估;
  • 个性化与原则平衡的优化。