Zing 论坛

正文

泰坦尼克号生存预测:经典机器学习入门项目的完整实现

详细介绍泰坦尼克号生存预测机器学习项目,涵盖数据预处理、特征工程、模型训练到Web应用部署的完整流程。

泰坦尼克号机器学习分类预测逻辑回归随机森林Streamlit数据预处理特征工程二分类数据科学入门
发布时间 2026/06/07 20:46最近活动 2026/06/07 20:57预计阅读 2 分钟
泰坦尼克号生存预测:经典机器学习入门项目的完整实现
1

章节 01

导读:泰坦尼克号生存预测——机器学习入门全流程项目

almxnas在GitHub上的泰坦尼克号生存预测项目是经典机器学习入门案例,涵盖数据预处理、特征工程、模型训练(逻辑回归、随机森林)到Streamlit Web应用部署的完整流程。作为数据科学的"Hello World",它不仅适合初学者掌握端到端项目技能,还能引发对历史伦理的深度思考。

2

章节 02

项目背景:数据科学的"Hello World"

泰坦尼克号数据集来自Kaggle,记录1912年沉船事故乘客信息与生存状况,约1300条记录,特征类型丰富(数值+类别),二分类目标明确。对初学者友好:数据量适中、业务含义易理解,且项目封装为交互式Web应用,是端到端数据科学的优秀范例。

3

章节 03

数据预处理与特征工程

预处理:Age按Pclass/Sex分组填充、Embarked用众数填充、Cabin缺失率高可删除或提取甲板信息;类别编码:Sex二值化、Embarked独热编码;特征工程:创建FamilySize(SibSp+Parch+1)、提取Title/Deck、Fare分箱、Age分组;数值特征需标准化/归一化(如逻辑回归)。

4

章节 04

模型选择与训练

使用两种经典算法:

  • 逻辑回归:基线模型,简单可解释,适合验证数据与特征有效性;
  • 随机森林:捕捉非线性交互,鲁棒性强,提供特征重要性评估。 训练流程:80/20划分数据集,交叉验证评估泛化能力,可通过网格/随机搜索调优超参数。
5

章节 05

模型评估指标

二分类评估指标包括:

  • 准确率(注意类别不平衡);
  • 精确率/召回率/F1-Score(平衡两者);
  • ROC-AUC曲线(衡量区分能力);
  • 混淆矩阵(直观展示预测结果分布)。
6

章节 06

Streamlit交互式Web应用

用Streamlit构建应用:

  • 输入控件:滑动条(年龄/票价)、下拉菜单(船舱等级/性别/登船港口)、数字输入(家庭成员数);
  • 显示组件:预测结果、生存概率、特征重要性可视化;
  • 部署方式:本地运行(streamlit run app.py)或云端(Streamlit Community Cloud等)。
7

章节 07

学习价值与扩展方向

学习价值:全流程体验、特征工程实践、模型对比理解、工程化思维; 扩展方向:尝试SVM/XGBoost/神经网络、超参数调优、特征选择、集成学习、SHAP值解释单个预测。

8

章节 08

历史意义与伦理思考

数据反映:

  • 阶级差异:一等舱生存率63% vs 三等舱24%;
  • 性别牺牲:男性生存率19% vs女性74%;
  • 儿童保护:儿童生存率较高。 使用数据集时需思考背后的社会含义,技术之外的人文历史价值不可忽视。