章节 01
导读:数据科学薪资预测的真实教训
本项目记录了使用PyTorch神经网络和随机森林预测数据科学薪资的实验过程,核心教训在于模型表现不佳的关键原因是数据质量而非算法选择。项目的诚实性——公开讨论失败——对机器学习教育具有重要价值。
正文
一个诚实的机器学习项目实验记录,展示了使用PyTorch神经网络和随机森林预测数据科学薪资的过程,以及为什么模型表现不佳——关键教训在于数据质量而非算法选择。
章节 01
本项目记录了使用PyTorch神经网络和随机森林预测数据科学薪资的实验过程,核心教训在于模型表现不佳的关键原因是数据质量而非算法选择。项目的诚实性——公开讨论失败——对机器学习教育具有重要价值。
章节 02
机器学习领域常炫耀SOTA成果,但很少公开失败。本项目因诚实展示代码实现及模型不佳原因而值得关注,这种透明度提醒我们:机器学习不仅是调参和选算法,更要理解数据、识别限制并诚实评估结果。
章节 03
项目目标:用经验水平、公司规模等特征预测薪资。 技术选型:
章节 04
模型性能对比:
| 模型 | 训练集R² | 测试集R² |
|---|---|---|
| 神经网络 | ~0.33 | -1.42 |
| 随机森林 | 0.35 | 0.26 |
| 失败原因: |
章节 05
核心启示:模型上限由数据决定而非算法。要提升R²到0.6以上需额外特征:具体职位名称、精确工作年限、城市/地区、公司名称、行业领域。 提醒:建模前先确认是否有足够好的特征支持预测任务。
章节 06
尽管结果不佳,代码有多个良好实践:
章节 07
章节 08
本项目虽无顶级会议成果,但价值显著: