章节 01
基于NASA卫星数据的马来西亚洪水预测机器学习框架导读
本研究利用NASA POWER MERRA-2卫星再分析数据,构建覆盖马来西亚8个主要城市的洪水与山洪预测系统,对比决策树、随机森林和XGBoost三种模型性能。核心发现包括:XGBoost在洪水和山洪预测中表现最优(AUC-ROC分别达0.9824和0.9651);新山洪水风险最高,东北季风期风险是其他月份20倍;3天滚动平均降雨量为关键预测因子。研究成果可为灾害预警、保险定价及城市规划提供支持。
正文
本项目利用NASA POWER MERRA-2卫星再分析数据,构建了针对马来西亚8个主要城市的洪水与山洪预测系统,对比了决策树、随机森林和XGBoost三种机器学习模型的性能表现。
章节 01
本研究利用NASA POWER MERRA-2卫星再分析数据,构建覆盖马来西亚8个主要城市的洪水与山洪预测系统,对比决策树、随机森林和XGBoost三种模型性能。核心发现包括:XGBoost在洪水和山洪预测中表现最优(AUC-ROC分别达0.9824和0.9651);新山洪水风险最高,东北季风期风险是其他月份20倍;3天滚动平均降雨量为关键预测因子。研究成果可为灾害预警、保险定价及城市规划提供支持。
章节 02
马来西亚热带季风气候导致每年11月-次年1月东海岸洪灾频发,2014、2021年特大洪水造成数十亿林吉特损失及人员伤亡。传统预警依赖地面站数据,偏远地区受限。本研究提出卫星数据+机器学习框架,弥补地面观测不足,为资源有限地区提供可靠预警。
章节 03
数据来源:NASA POWER MERRA-2数据集(2010.1-2026.3,16年,47367条日度记录),覆盖8城市(东海岸:哥打巴鲁、关丹;南部:新山、马六甲;中部:吉隆坡、莎阿南;东马:古晋、亚庇)。特征设计:基础气象(气温、湿度、风速)、滚动统计(3/7/14天降雨平均、7天累计)、时间特征(月份、季风指示)。标签定义:洪水(日降雨≥50mm,占1.43%)、山洪(≥80mm,占0.48%),类别极度不平衡。注:日降雨仅用于标签,避免数据泄露。
章节 04
对比模型:决策树(基准,可解释但易过拟合)、随机森林(集成降低方差)、XGBoost(梯度提升,正则化控制复杂度)。评估指标:准确率、精确率、召回率、F1分数、AUC-ROC。灾害预警中召回率优先(漏报代价更高)。
章节 05
洪水预测(≥50mm):XGBoost最优(F1=0.2979,AUC=0.9824);决策树召回率高(80.49%)但精确率低;随机森林精确率高但召回率低。山洪预测(≥80mm):XGBoost AUC领先(0.9651)。关键发现:1. 新山洪水风险最高(2.85%),是马六甲8倍;2. 东北季风期风险是其他月份20倍;3. 3天滚动平均降雨为最重要特征;4. 模型AUC均≥0.88,学习到真实模式。
章节 06
章节 07
局限:MERRA-2空间分辨率50公里(小尺度事件不足);山洪样本仅226例;未考虑地形等地理因素。改进:整合GPM高分辨率数据;尝试LSTM/Transformer时序模型;融合雷达、水位、社交媒体等多源数据;开发实时API服务。
章节 08
本研究验证了卫星数据+机器学习在洪水预测的潜力。XGBoost模型表现最优,适合作为预警核心算法。成果为马来西亚及类似气候国家提供可复制方案,有望减少洪灾损失。