正文

大语言模型能否预测电力需求？14种模型在比利时电网数据上的全面对比

一项系统研究对比了统计模型、机器学习、深度学习和大语言模型在电力负荷预测任务上的表现，涵盖ARIMA到GPT-4o共14种配置，揭示了LLM在时序预测领域的真实能力边界。

大语言模型时间序列预测电力负荷预测Time-LLMGPT-4oXGBoostLSTM能源机器学习深度学习

发布时间 2026/06/08 07:15最近活动 2026/06/08 07:18预计阅读 3 分钟

章节 01

【导读】大语言模型能否预测电力需求？14种模型对比揭示真实能力边界

本研究系统对比了统计模型、机器学习、深度学习及大语言模型（共14种配置）在比利时电网电力负荷预测任务中的表现，旨在揭示LLM在时序预测领域的能力边界。研究使用近10年的比利时电网数据，核心发现包括：Time-LLM（通过重编程层适配GPT-2的架构）表现优于传统XGBoost和LSTM；直接提示GPT-4o进行预测效果不佳；集成模型（XGB+LSTM+Time-LLM）取得最佳性能。

章节 02

研究背景与动机

电力负荷预测是能源行业核心问题，准确短期预测对电网调度、交易及可再生能源整合至关重要。传统方法包括统计模型（ARIMA、Prophet）和机器学习模型（XGBoost、LSTM），但LLM兴起后，需回答：这些文本模型能否直接应用于数值时序预测？本研究来自赫尔大学硕士项目，使用比利时电网2015-2025年超39.5万个15分钟间隔负荷数据，对比14种模型配置。

章节 03

数据集预处理与模型阵容

数据集与预处理

数据来自比利时Elia公开门户，聚合为小时级后约9.9万条记录。预处理包括：线性插值填补0.19%缺失值；为XGBoost构造日历、滞后（t-1/t-24/t-168）及滚动统计特征；LSTM和Time-LLM用StandardScaler标准化（仅训练集拟合）。

模型阵容

统计基线：朴素持续性、ETS、ARIMA、Prophet
机器学习：XGBoost
深度学习：双层LSTM（128单元）
LLM方法：Time-LLM（冻结GPT-2+重编程层）、GPT-4o零样本/少样本

章节 04

评估方法与核心发现

评估协议

按时间划分70%训练/15%验证/15%测试，指标含MAE、RMSE、sMAPE、MASE。

24小时预测结果（MAE/MW）

模型	MAE	MASE
集成模型	263	0.49
Time-LLM	271	0.50
XGBoost	277	0.51
GPT-4o零样本	481	0.89

48小时预测结果（MAE/MW）

模型	MAE	MASE
集成模型	299	0.55
Time-LLM	317	0.59
XGBoost	315	0.59
GPT-4o零样本	535	0.99

关键洞察

Time-LLM表现最佳（单模型），直接GPT-4o效果差；
XGBoost强劲，特征工程价值显著；
集成模型最优，体现多样性价值。

章节 05

实际意义与应用启示

混合策略最优：集成XGBoost、LSTM、Time-LLM效果最佳；
LLM需适配：直接用GPT-4o不实用，Time-LLM类架构可行；
特征工程仍重要：XGBoost表现证明领域知识价值；
统计模型作基线：Prophet等在数据有限或需解释性场景仍有用。

章节 06

研究局限与未来方向

局限

仅用比利时电网数据，泛化性待验证；

未来方向

探索不同LLM骨干网络对时序适配的影响；
优化GPT-4o少样本提示设计；
在更多数据集上验证结论。