正文

客户流失预测系统：企业级机器学习留存方案

这是一个面向电信行业的客户流失预测系统，使用机器学习技术分析12万客户数据，识别高风险客户并给出留存建议。系统采用交叉验证、超参数调优和ROC-AUC分析，通过Streamlit提供交互式预测界面和批量预测功能。

客户流失预测机器学习电信梯度提升交叉验证超参数调优ROC-AUCStreamlit客户留存批量预测

发布时间 2026/06/15 02:15最近活动 2026/06/15 02:21预计阅读 3 分钟

章节 01

导读 / 主楼：客户流失预测系统：企业级机器学习留存方案

章节 02

原作者与来源

原作者/维护者： Aakash（23Q91A6737-wq）
来源平台： GitHub
原始标题： customer-churn-prediction-system-1
原始链接： https://github.com/23Q91A6737-wq/customer-churn-prediction-system-1
发布时间： 2026年6月

章节 03

业务背景

客户流失是电信公司面临的核心挑战之一。每当一位客户离开，公司不仅失去未来的收入，还要投入大量成本获取新客户来弥补空缺。研究表明，获取新客户的成本是留住现有客户的5到25倍。

这个项目的核心目标是：在客户真正离开之前，识别出高风险客户，让企业能够主动采取留存措施。

章节 04

数据集规模

客户数量： 120,000
目标变量： 是否流失（是/否）

章节 05

特征维度

系统分析以下客户属性：

特征类别	具体属性
人口统计	性别、老年公民、是否有伴侣、是否有家属
账户信息	在网时长、合约类型、支付方式
服务使用	互联网服务类型
费用信息	月消费金额、累计消费金额

章节 06

技术流程

原始数据
    │
    ▼
┌─────────────────┐
│   数据清洗       │ ← 处理缺失值、异常值
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   特征工程       │ ← 构建有意义的特征
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   预处理管道     │ ← 标准化、编码
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   训练/测试分割  │ ← 确保数据隔离
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   模型训练       │ ← 多种算法对比
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   交叉验证       │ ← 评估泛化能力
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   超参数调优     │ ← 寻找最优配置
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   模型评估       │ ← ROC-AUC等指标
└────────┬────────┘
    │
    ▼
┌─────────────────┐
│   模型部署       │ ← Streamlit应用
└─────────────────┘

章节 07

模型对比

项目测试了三种主流机器学习算法：

逻辑回归：基线模型，可解释性强
随机森林：集成方法，处理非线性关系
梯度提升：最终选择的模型

章节 08

最佳模型性能（梯度提升）

指标	数值	说明
准确率	72.37%	整体预测正确率
精确率	71.24%	预测为流失的客户中实际流失的比例
召回率	81.34%	实际流失客户中被成功识别的比例
F1分数	75.95%	精确率和召回率的调和平均
AUC分数	78.39%	ROC曲线下面积，衡量分类能力