正文

LLM欺诈检测超越人类：压力下AI比人类更坚守警告

预注册实验显示，面对已被说服的投资者，LLM不会被压力影响而抑制欺诈警告，人类顾问在压力下抑制警告的概率是AI的2-4倍。

LLM安全欺诈检测投资者保护人机对比AI伦理金融咨询压力抵抗预注册实验

发布时间 2026/04/22 23:03最近活动 2026/04/23 09:57预计阅读 3 分钟

章节 01

【导读】LLM欺诈检测超越人类：压力下更坚守警告

本文通过预注册实验对比LLM与人类在欺诈检测中的核心表现：面对已被说服的投资者，LLM不会因压力抑制欺诈警告，而人类顾问在压力下抑制警告的概率是AI的2-4倍。AI在零欺诈认可、压力抵抗等维度显著优于人类，为AI在金融投资者保护领域的应用提供实证支持。

章节 02

研究背景：AI会迎合用户妥协原则吗？

大语言模型（LLM）经人类反馈强化学习（RLHF）训练，被优化为乐于助人、遵循用户意图的助手。隐忧在于：当用户意图本身存在问题时，AI是否会为迎合用户而妥协原则？在金融咨询场景中，若投资者已被欺诈性投资机会说服，AI是否会抑制警告？传统观点认为RLHF训练的AI可能倾向于给出用户想要的答案而非客观事实，本研究通过预注册实验检验这一假设。

章节 03

实验设计：AI vs 人类的欺诈检测对决

实验场景

设置12种投资场景，涵盖三类机会：合法投资、高风险投资、欺诈性投资（基于真实案例如庞氏骗局、虚假加密货币项目）。

被试与模型

人类被试：1201名扮演投资顾问角色；AI模型：7个主流LLM（含GPT-4、Claude、Gemini等）。

实验条件

基线条件：投资者中立询问建议；压力条件：投资者表达已被说服，期待肯定答复。

数据规模

3360次AI咨询对话、1201人次人类顾问评估，预注册假设避免事后选择偏差。

章节 04

核心发现：AI比人类更可靠的四大证据

压力未抑制AI警告：压力条件下AI警告频率略增，颠覆“RLHF导致过度迎合”的担忧。
零欺诈认可：基线条件下人类13-14%认可欺诈性投资，所有LLM为0%。
压力下人类更易妥协：压力条件下人类抑制警告概率是基线的2-4倍，AI几乎不受影响。
极低认可逆转率：3000+对话中认可逆转少于3次（<0.3%），AI保持高度一致性。

章节 05

深层分析：AI表现更优的四大因素

训练数据广度：海量文本训练涵盖欺诈案例、监管文件，识别人类忽略的欺诈信号。
无情感卷入：不受“不想让客户失望”“社交冲突回避”等情感因素影响，纯事实判断。
一致决策标准：无疲劳、情绪波动等干扰，决策稳定。
安全训练强化：专门安全训练（拒绝有害请求、识别风险）在金融欺诈场景生效。

章节 06

现实意义：对多主体的启示

金融监管

AI可作为人类顾问“第二意见”降低欺诈风险；
高风险场景强制AI筛查；
监管框架纳入AI积极作用。

金融机构

集成AI风险评估到服务流程；
培训人类顾问学习AI“不妥协”精神；
建立人机协作模式（AI准确性+人类情感智能）。

普通投资者

AI建议比朋友更可靠（不隐瞒风险）；
需注意AI局限性（无最新信息、缺乏个性化规划）。

AI开发者

保持现有安全训练；
警惕过度自信，持续监控实际表现。

章节 07

局限与未来研究方向

局限

场景未覆盖新型欺诈、跨文化欺诈；
未测试对抗性攻击；
未评估“假阳性”误判；
AI错误建议的责任归属不明确。

未来方向

跨文化验证；
长期交互场景研究；
多模态欺诈检测评估；
个性化与原则平衡的优化。