Zing 论坛

正文

电商数据分析实战:从SQL清洗到机器学习预测客户满意度

一个完整的巴西电商数据分析项目,涵盖SQL数据清洗、Power BI可视化、Python探索性分析和机器学习建模,核心发现是配送时效对客户满意度的决定性影响。

电商数据分析SQL数据清洗机器学习客户满意度预测Power BI可视化Python数据分析随机森林配送优化Olist数据集端到端数据分析
发布时间 2026/05/15 05:56最近活动 2026/05/15 06:00预计阅读 2 分钟
电商数据分析实战:从SQL清洗到机器学习预测客户满意度
1

章节 01

【导读】电商数据分析实战:配送时效决定客户满意度

本项目基于巴西电商平台Olist的真实交易数据,完成了从SQL数据清洗、Power BI可视化、Python探索性分析到机器学习建模的端到端分析。核心发现为:配送表现是客户满意度的最强驱动因素。项目覆盖完整业务链路,为电商运营提供数据驱动的决策依据。

2

章节 02

项目背景与数据来源

使用Olist巴西电商数据集,包含订单、客户、卖家、商品、支付、配送和评价等完整信息。关键数据规模:

  • 总订单数:99,441笔
  • 已完成支付订单:99,440笔
  • 成功配送订单:96,478笔
  • 总支付金额:16,008,872.12雷亚尔
  • 平均评价得分:4.09分 数据集的完整性为分析客户满意度影响因素提供了绝佳素材。
3

章节 03

分析方法与技术栈

数据清洗(SQL)

关键决策:评价数据聚合、支付数据汇总、商品分类标准化、订单商品行合并、缺失值业务化处理,形成统一视图analysis_orders_master

探索性分析

涵盖订单状态分布、月度营收趋势、高营收品类识别(健康美容、手表礼品等)。

技术栈

数据存储:SQLite;查询:SQL;处理:Python/Pandas;可视化:Matplotlib/Power BI;机器学习:Scikit-learn/XGBoost/LightGBM;开发环境:Jupyter/VS Code。

4

章节 04

核心发现:配送时效主导满意度

  1. 配送延迟与评价负相关:延迟超7天订单评价最低,整体延迟率8.11%。
  2. 地区差异显著:部分州延迟率远高于平均,与物流基础设施等相关。
  3. 高营收品类风险:部分高营收品类评价较低,存在满意度隐患。
  4. 卖家风险评估:综合营收、配送表现、评价得分识别高风险卖家。
5

章节 05

机器学习建模:预测低分评价

目标

二分类预测:低分评价(1)/非低分评价(0),排除未评价订单。

特征工程

移除与评价直接相关列避免数据泄露,基于配送、支付等属性建模。

模型选择

测试多种算法后,选择阈值调优的随机森林,表现:

  • 准确率:0.8848
  • 精确率:0.6456
  • 召回率:0.4727
  • F1分数:0.5457

特征重要性

延迟天数、订单是否已配送、配送天数等为核心特征。

局限

属配送后风险模型,无法事前预警,建议构建配送前预测模型。

6

章节 06

应用价值与业务启示

可视化应用

Power BI仪表板提供总订单数、延迟率、月度趋势等关键指标,支持管理层决策。

业务启示

  1. 配送体验是核心竞争力;
  2. 数据驱动发现隐藏问题;
  3. 预测模型为运营提供参考;
  4. 端到端分析确保洞察可信。 项目为电商数据分析学习者提供完整参考案例,展示技术与业务结合的价值。