Zing 论坛

正文

大语言模型能否预测电力需求?14种模型在比利时电网数据上的全面对比

一项系统研究对比了统计模型、机器学习、深度学习和大语言模型在电力负荷预测任务上的表现,涵盖ARIMA到GPT-4o共14种配置,揭示了LLM在时序预测领域的真实能力边界。

大语言模型时间序列预测电力负荷预测Time-LLMGPT-4oXGBoostLSTM能源机器学习深度学习
发布时间 2026/06/08 07:15最近活动 2026/06/08 07:18预计阅读 3 分钟
大语言模型能否预测电力需求?14种模型在比利时电网数据上的全面对比
1

章节 01

【导读】大语言模型能否预测电力需求?14种模型对比揭示真实能力边界

本研究系统对比了统计模型、机器学习、深度学习及大语言模型(共14种配置)在比利时电网电力负荷预测任务中的表现,旨在揭示LLM在时序预测领域的能力边界。研究使用近10年的比利时电网数据,核心发现包括:Time-LLM(通过重编程层适配GPT-2的架构)表现优于传统XGBoost和LSTM;直接提示GPT-4o进行预测效果不佳;集成模型(XGB+LSTM+Time-LLM)取得最佳性能。

2

章节 02

研究背景与动机

电力负荷预测是能源行业核心问题,准确短期预测对电网调度、交易及可再生能源整合至关重要。传统方法包括统计模型(ARIMA、Prophet)和机器学习模型(XGBoost、LSTM),但LLM兴起后,需回答:这些文本模型能否直接应用于数值时序预测?本研究来自赫尔大学硕士项目,使用比利时电网2015-2025年超39.5万个15分钟间隔负荷数据,对比14种模型配置。

3

章节 03

数据集预处理与模型阵容

数据集与预处理

数据来自比利时Elia公开门户,聚合为小时级后约9.9万条记录。预处理包括:线性插值填补0.19%缺失值;为XGBoost构造日历、滞后(t-1/t-24/t-168)及滚动统计特征;LSTM和Time-LLM用StandardScaler标准化(仅训练集拟合)。

模型阵容

  • 统计基线:朴素持续性、ETS、ARIMA、Prophet
  • 机器学习:XGBoost
  • 深度学习:双层LSTM(128单元)
  • LLM方法:Time-LLM(冻结GPT-2+重编程层)、GPT-4o零样本/少样本
4

章节 04

评估方法与核心发现

评估协议

按时间划分70%训练/15%验证/15%测试,指标含MAE、RMSE、sMAPE、MASE。

24小时预测结果(MAE/MW)

模型 MAE MASE
集成模型 263 0.49
Time-LLM 271 0.50
XGBoost 277 0.51
GPT-4o零样本 481 0.89

48小时预测结果(MAE/MW)

模型 MAE MASE
集成模型 299 0.55
Time-LLM 317 0.59
XGBoost 315 0.59
GPT-4o零样本 535 0.99

关键洞察

  • Time-LLM表现最佳(单模型),直接GPT-4o效果差;
  • XGBoost强劲,特征工程价值显著;
  • 集成模型最优,体现多样性价值。
5

章节 05

实际意义与应用启示

  1. 混合策略最优:集成XGBoost、LSTM、Time-LLM效果最佳;
  2. LLM需适配:直接用GPT-4o不实用,Time-LLM类架构可行;
  3. 特征工程仍重要:XGBoost表现证明领域知识价值;
  4. 统计模型作基线:Prophet等在数据有限或需解释性场景仍有用。
6

章节 06

研究局限与未来方向

局限

  • 仅用比利时电网数据,泛化性待验证;

未来方向

  • 探索不同LLM骨干网络对时序适配的影响;
  • 优化GPT-4o少样本提示设计;
  • 在更多数据集上验证结论。