正文

信用卡欺诈检测实战：随机森林与类别不平衡处理的深度对比

一个面向机器学习初学者的实战项目，通过对比基准模型、SMOTE过采样和类别权重三种方法，深入探讨金融欺诈检测中的类别不平衡问题及其解决方案。

欺诈检测随机森林类别不平衡SMOTE机器学习金融安全分类模型数据科学召回率F1分数

发布时间 2026/05/28 20:45最近活动 2026/05/28 20:53预计阅读 2 分钟

章节 01

信用卡欺诈检测实战：随机森林与类别不平衡处理深度对比（导读）

本项目是面向机器学习初学者的实战项目，由WangareCeline开发，通过对比基准随机森林模型、SMOTE过采样和类别权重三种方法，深入探讨金融欺诈检测中的类别不平衡问题。项目使用Kaggle信用卡欺诈数据集，揭示了特定场景下简单基线模型可能优于复杂策略的重要结论，为同类问题提供参考。

章节 02

金融欺诈检测的现实挑战与数据集情况

金融欺诈检测面临极端类别不平衡难题（欺诈交易占比通常低于2%），准确率指标具有误导性，需关注召回率和F1分数。本项目使用Kaggle的Credit Card Fraud Detection Dataset，含10000条记录，其中正常交易9849条（98.5%）、欺诈交易151条（1.5%），特征包括交易金额、时间、商户类别、风险指标等。

章节 03

数据预处理与模型策略对比

数据预处理流程：无缺失值清洗，对merchant_category做标签编码，剔除transaction_id；按80/20划分训练测试集（random_state=42）。模型策略：1.基线模型：100棵树的标准随机森林；2.SMOTE过采样：在少数类样本间插值生成合成样本；3.类别权重调整：为欺诈类别设置更高权重，修改损失函数惩罚错分少数类。

章节 04

实验结果与关键发现

实验结果对比：

模型	精确率	召回率	F1分数
基线模型	1.00	0.61	0.76
SMOTE	0.26	0.61	0.36
类别权重	1.00	0.55	0.71
关键发现：基线模型F1最高；SMOTE精确率骤降（假阳性多）；类别权重召回率略降。基线模型零假阳性（正常交易误判为欺诈数0），实际应用价值高。