正文

基于OULAD数据集的在线学习学生辍学风险预测模型

使用OULAD数据集开发的机器学习模型，用于预测在线学习环境中的学生辍学风险，实现早期学术干预。

机器学习在线教育辍学预测OULAD数据集逻辑回归学习分析教育数据挖掘Streamlit

发布时间 2026/05/14 14:25最近活动 2026/05/14 14:30预计阅读 2 分钟

章节 01

【导读】基于OULAD数据集的在线学习学生辍学风险预测模型核心概述

本项目旨在利用机器学习技术预测在线学习环境中学生的辍学风险，实现早期学术干预。基于开放大学学习分析数据集（OULAD）开发逻辑回归模型，测试集整体准确率达76.4%，辍学学生召回率为67%。项目还通过Streamlit构建交互式Web应用，方便教育工作者实时获取预测结果，助力资源优化与干预决策。

章节 02

项目背景与核心研究问题

在线教育普及带来灵活性的同时，辍学率显著高于传统教学。识别高风险学生并及时干预对提升教育质量至关重要。本项目基于OULAD数据集（包含学生行为、人口统计及学业表现记录），核心研究问题为：学生参与度、学业表现和人口统计信息能否有效预测辍学风险，转化为可操作洞察？

章节 03

技术实现与方法论

数据处理：合并OULAD多表，聚焦人口统计、学习参与度（VLE点击等）、评估数据三类；特征工程：将事件级数据聚合为学生级指标（如总点击次数、中位数分数）；缺失值处理：点击/分数用0填充，分类变量用Unknown标记；编码策略：名义变量独热编码，序数变量序数编码；目标转换：将final_result转为二元辍学变量；模型选择：逻辑回归（StandardScaler标准化，class_weight平衡类别）。

章节 04

模型性能评估结果

模型测试集整体准确率76.4%。分类报告显示：非辍学类精确率0.84、召回率0.81、F1 0.82；辍学类精确率0.61、召回率0.67、F1 0.64。混淆矩阵为[[3619 869],[669 1362]]。解读：辍学类高召回率（67%）利于识别风险学生，精确率较低存在假阳性，需根据干预成本权衡。

章节 05

应用部署与教育价值

应用部署：通过Streamlit构建交互式Web应用，流程为训练模型保存为joblib，编写app.py启动界面；技术栈：Python3.8+、Pandas/NumPy、Matplotlib/Seaborn、Scikit-learn、Joblib、Streamlit、Kagglehub；教育价值：作为早期预警系统，优化资源分配，提供学习分析实践案例。

章节 06