正文

电商数据分析实战：从SQL清洗到机器学习预测客户满意度

一个完整的巴西电商数据分析项目，涵盖SQL数据清洗、Power BI可视化、Python探索性分析和机器学习建模，核心发现是配送时效对客户满意度的决定性影响。

电商数据分析SQL数据清洗机器学习客户满意度预测Power BI可视化Python数据分析随机森林配送优化Olist数据集端到端数据分析

发布时间 2026/05/15 05:56最近活动 2026/05/15 06:00预计阅读 2 分钟

章节 01

【导读】电商数据分析实战：配送时效决定客户满意度

本项目基于巴西电商平台Olist的真实交易数据，完成了从SQL数据清洗、Power BI可视化、Python探索性分析到机器学习建模的端到端分析。核心发现为：配送表现是客户满意度的最强驱动因素。项目覆盖完整业务链路，为电商运营提供数据驱动的决策依据。

章节 02

项目背景与数据来源

使用Olist巴西电商数据集，包含订单、客户、卖家、商品、支付、配送和评价等完整信息。关键数据规模：

总订单数：99,441笔
已完成支付订单：99,440笔
成功配送订单：96,478笔
总支付金额：16,008,872.12雷亚尔
平均评价得分：4.09分数据集的完整性为分析客户满意度影响因素提供了绝佳素材。

章节 03

分析方法与技术栈

数据清洗（SQL）

关键决策：评价数据聚合、支付数据汇总、商品分类标准化、订单商品行合并、缺失值业务化处理，形成统一视图analysis_orders_master。

探索性分析

涵盖订单状态分布、月度营收趋势、高营收品类识别（健康美容、手表礼品等）。

技术栈

数据存储：SQLite；查询：SQL；处理：Python/Pandas；可视化：Matplotlib/Power BI；机器学习：Scikit-learn/XGBoost/LightGBM；开发环境：Jupyter/VS Code。

章节 04

核心发现：配送时效主导满意度

配送延迟与评价负相关：延迟超7天订单评价最低，整体延迟率8.11%。
地区差异显著：部分州延迟率远高于平均，与物流基础设施等相关。
高营收品类风险：部分高营收品类评价较低，存在满意度隐患。
卖家风险评估：综合营收、配送表现、评价得分识别高风险卖家。

章节 05

机器学习建模：预测低分评价

目标

二分类预测：低分评价（1）/非低分评价（0），排除未评价订单。

特征工程

移除与评价直接相关列避免数据泄露，基于配送、支付等属性建模。

模型选择

测试多种算法后，选择阈值调优的随机森林，表现：

准确率：0.8848
精确率：0.6456
召回率：0.4727
F1分数：0.5457

特征重要性

延迟天数、订单是否已配送、配送天数等为核心特征。

局限

属配送后风险模型，无法事前预警，建议构建配送前预测模型。

章节 06

应用价值与业务启示

可视化应用

Power BI仪表板提供总订单数、延迟率、月度趋势等关键指标，支持管理层决策。

业务启示

配送体验是核心竞争力；
数据驱动发现隐藏问题；
预测模型为运营提供参考；
端到端分析确保洞察可信。项目为电商数据分析学习者提供完整参考案例，展示技术与业务结合的价值。