Zing 论坛

正文

基于NASA卫星数据的马来西亚洪水预测机器学习框架

本项目利用NASA POWER MERRA-2卫星再分析数据,构建了针对马来西亚8个主要城市的洪水与山洪预测系统,对比了决策树、随机森林和XGBoost三种机器学习模型的性能表现。

洪水预测机器学习XGBoostNASA卫星数据马来西亚灾害预警随机森林决策树气象数据类别不平衡
发布时间 2026/05/09 20:56最近活动 2026/05/09 21:01预计阅读 2 分钟
基于NASA卫星数据的马来西亚洪水预测机器学习框架
1

章节 01

基于NASA卫星数据的马来西亚洪水预测机器学习框架导读

本研究利用NASA POWER MERRA-2卫星再分析数据,构建覆盖马来西亚8个主要城市的洪水与山洪预测系统,对比决策树、随机森林和XGBoost三种模型性能。核心发现包括:XGBoost在洪水和山洪预测中表现最优(AUC-ROC分别达0.9824和0.9651);新山洪水风险最高,东北季风期风险是其他月份20倍;3天滚动平均降雨量为关键预测因子。研究成果可为灾害预警、保险定价及城市规划提供支持。

2

章节 02

研究背景与意义

马来西亚热带季风气候导致每年11月-次年1月东海岸洪灾频发,2014、2021年特大洪水造成数十亿林吉特损失及人员伤亡。传统预警依赖地面站数据,偏远地区受限。本研究提出卫星数据+机器学习框架,弥补地面观测不足,为资源有限地区提供可靠预警。

3

章节 03

数据基础与特征工程

数据来源:NASA POWER MERRA-2数据集(2010.1-2026.3,16年,47367条日度记录),覆盖8城市(东海岸:哥打巴鲁、关丹;南部:新山、马六甲;中部:吉隆坡、莎阿南;东马:古晋、亚庇)。特征设计:基础气象(气温、湿度、风速)、滚动统计(3/7/14天降雨平均、7天累计)、时间特征(月份、季风指示)。标签定义:洪水(日降雨≥50mm,占1.43%)、山洪(≥80mm,占0.48%),类别极度不平衡。注:日降雨仅用于标签,避免数据泄露。

4

章节 04

模型方法与实验设计

对比模型:决策树(基准,可解释但易过拟合)、随机森林(集成降低方差)、XGBoost(梯度提升,正则化控制复杂度)。评估指标:准确率、精确率、召回率、F1分数、AUC-ROC。灾害预警中召回率优先(漏报代价更高)。

5

章节 05

实验结果与关键发现

洪水预测(≥50mm):XGBoost最优(F1=0.2979,AUC=0.9824);决策树召回率高(80.49%)但精确率低;随机森林精确率高但召回率低。山洪预测(≥80mm):XGBoost AUC领先(0.9651)。关键发现:1. 新山洪水风险最高(2.85%),是马六甲8倍;2. 东北季风期风险是其他月份20倍;3. 3天滚动平均降雨为最重要特征;4. 模型AUC均≥0.88,学习到真实模式。

6

章节 06

实际应用价值

  1. 灾害预警:集成到NADMA系统,实时卫星数据提前预测高风险区,支持疏散与资源调配;2. 保险金融:用于风险评估与保费定价,结合GIS绘制精细风险地图;3. 城市规划:指导防洪基建(如新山加强排水系统),季风前重点维护。
7

章节 07

局限性与改进方向

局限:MERRA-2空间分辨率50公里(小尺度事件不足);山洪样本仅226例;未考虑地形等地理因素。改进:整合GPM高分辨率数据;尝试LSTM/Transformer时序模型;融合雷达、水位、社交媒体等多源数据;开发实时API服务。

8

章节 08

研究结论

本研究验证了卫星数据+机器学习在洪水预测的潜力。XGBoost模型表现最优,适合作为预警核心算法。成果为马来西亚及类似气候国家提供可复制方案,有望减少洪灾损失。