正文

数据科学薪资预测：当神经网络遇上小数据集的真实教训

一个诚实的机器学习项目实验记录，展示了使用PyTorch神经网络和随机森林预测数据科学薪资的过程，以及为什么模型表现不佳——关键教训在于数据质量而非算法选择。

机器学习薪资预测PyTorch随机森林过拟合数据质量特征工程回归分析神经网络

发布时间 2026/06/16 23:44最近活动 2026/06/16 23:51预计阅读 2 分钟

章节 01

导读：数据科学薪资预测的真实教训

本项目记录了使用PyTorch神经网络和随机森林预测数据科学薪资的实验过程，核心教训在于模型表现不佳的关键原因是数据质量而非算法选择。项目的诚实性——公开讨论失败——对机器学习教育具有重要价值。

章节 02

机器学习领域常炫耀SOTA成果，但很少公开失败。本项目因诚实展示代码实现及模型不佳原因而值得关注，这种透明度提醒我们：机器学习不仅是调参和选算法，更要理解数据、识别限制并诚实评估结果。

章节 03

项目目标：用经验水平、公司规模等特征预测薪资。 技术选型：

章节 04

模型性能对比：

章节 05

核心启示：模型上限由数据决定而非算法。要提升R²到0.6以上需额外特征：具体职位名称、精确工作年限、城市/地区、公司名称、行业领域。提醒：建模前先确认是否有足够好的特征支持预测任务。

章节 06

尽管结果不佳，代码有多个良好实践：

章节 07

章节 08

本项目虽无顶级会议成果，但价值显著：