章节 01
【导读】机器学习预测波士顿马拉松完赛时间:高精度模型实践
本文基于2023年波士顿马拉松26,598名跑者的真实数据,通过年龄组、性别和半程成绩预测全程完赛时间,对比了基线比例法、线性回归、神经网络和Bagged Trees集成模型,最终Bagged Trees集成模型实现RMSE仅9.42分钟的高精度预测(R²=0.953),验证了简单模型在该任务中的优异表现。
正文
本文介绍了一个基于2023年波士顿马拉松数据集(26,598名跑者)的机器学习项目,通过年龄组、性别和半程成绩预测全程完赛时间,对比了线性回归、神经网络和集成树模型,最终实现了RMSE仅9.42分钟的高精度预测。
章节 01
本文基于2023年波士顿马拉松26,598名跑者的真实数据,通过年龄组、性别和半程成绩预测全程完赛时间,对比了基线比例法、线性回归、神经网络和Bagged Trees集成模型,最终Bagged Trees集成模型实现RMSE仅9.42分钟的高精度预测(R²=0.953),验证了简单模型在该任务中的优异表现。
章节 02
波士顿马拉松作为世界六大马拉松赛事之一,数据具有极高研究价值。本项目使用2023年赛事26,598名完赛跑者数据,核心特征包括:
章节 03
rmmissing移除含缺失值记录章节 04
对比四模型:
fitlm,可解释性强,系数反映特征影响fitrensemble,150学习器+最小叶节点10,降低方差提升泛化。章节 05
测试集表现(部分指标):
| 排名 | 模型 | RMSE(分钟) | R² | ±10分钟准确率 |
|---|---|---|---|---|
| 1 | Bagged Trees集成 | 9.42 | 0.953 | 78% |
| 2 | 线性回归 | 9.70 | 0.951 | 77% |
| 3 | 神经网络 | 9.75 | 0.950 | 77% |
| 4 | 基线比例法 | 10.11 | 0.947 | 72% |
| 关键发现: |
章节 06
二分类扩展:设定3:00/3:30等完赛阈值,转换为“能否在X小时内完赛”二元决策,准确率达94%-98%。 技术实现:
marathon_models.m端到端流水线章节 07
启示: