# 大语言模型能否预测电力需求？14种模型在比利时电网数据上的全面对比

> 一项系统研究对比了统计模型、机器学习、深度学习和大语言模型在电力负荷预测任务上的表现，涵盖ARIMA到GPT-4o共14种配置，揭示了LLM在时序预测领域的真实能力边界。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-07T23:15:20.000Z
- 最近活动: 2026-06-07T23:18:18.538Z
- 热度: 145.9
- 关键词: 大语言模型, 时间序列预测, 电力负荷预测, Time-LLM, GPT-4o, XGBoost, LSTM, 能源, 机器学习, 深度学习
- 页面链接: https://www.zingnex.cn/forum/thread/14
- Canonical: https://www.zingnex.cn/forum/thread/14
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: niranjoshua
- **来源平台**: GitHub
- **原文标题**: Large-Language-Model-for-Analysing-Time-Series-Energy-Generation-Data
- **原文链接**: https://github.com/niranjoshua/Large-Language-Model-for-Analysing-Time-Series-Energy-Generation-Data
- **发布时间**: 2026年6月7日

---

## 研究背景与动机

电力负荷预测是能源行业的核心问题之一。准确的短期预测（24-48小时）对于电网调度、电力交易和可再生能源整合至关重要。传统的预测方法包括统计模型（如ARIMA、Prophet）和机器学习模型（如XGBoost、LSTM），但随着大语言模型（LLM）的兴起，一个自然的问题浮现：这些在文本理解上表现出色的模型，能否直接应用于数值型时间序列预测？

这项来自赫尔大学人工智能工程硕士项目的研究，正是为了回答这个问题。研究团队使用了比利时电网超过39.5万个15分钟间隔的负荷数据（2015年1月至2025年4月），系统对比了14种不同模型配置的表现，涵盖统计模型、机器学习、深度学习以及基于LLM的方法。

---

## 数据集与预处理

研究使用的数据来自比利时输电系统运营商Elia的公开数据门户。原始数据包含超过39.5万个15分钟间隔的负荷读数，时间跨度接近10年。为了便于建模，数据被聚合为小时级分辨率，最终得到约9.9万条记录。

数据预处理流程体现了严谨的时间序列处理原则。首先处理缺失值：原始数据中有736个缺失值（占比0.19%），最大缺失间隔为6小时，采用线性插值进行填补。然后进行特征工程，为XGBoost模型构造了日历特征、滞后特征（t-1、t-24、t-168）以及滚动统计特征（24小时和168小时的均值与标准差）。对于LSTM和Time-LLM模型，使用StandardScaler进行标准化，且仅在训练数据上拟合缩放器，避免数据泄露。

---

## 模型阵容：从经典统计到前沿LLM

研究设计的核心亮点在于其全面性，共测试了14种模型配置，分为四大类别：

### 统计基线模型
- **朴素持续性模型（Naive Persistence）**：直接重复最近24小时的负荷曲线，作为最简单的基准
- **ETS（Holt-Winters）**：带加性趋势和日季节性成分的指数平滑模型
- **ARIMA**：基于AIC准则自动选择阶数的自回归模型
- **Prophet**：Facebook开发的加性回归模型，内置日/周季节性处理

### 机器学习模型
- **XGBoost**：梯度提升树，利用精心设计的日历、滞后和滚动特征

### 深度学习模型
- **LSTM**：双层长短期记忆网络（128单元），使用168小时回溯窗口

### 大语言模型方法
- **Time-LLM**：这是研究中最具创新性的方法。它使用冻结的GPT-2骨干网络（1.24亿参数），但通过可学习的重编程层（约200万可训练参数）将时间序列数据适配到预训练表示空间。该方法通过跨注意力机制与提示原型交互，将时序预测任务转化为LLM可以理解的格式
- **GPT-4o零样本（Zero-Shot）**：直接用自然语言提示让GPT-4o进行数值预测
- **GPT-4o少样本（Few-Shot）**：在零样本基础上增加3个验证集示例进行上下文学习

---

## 评估方法与核心发现

研究采用严格的时间序列评估协议：按时间顺序划分70%训练集、15%验证集、15%测试集，不使用随机打乱。所有模型在相同的测试窗口上进行评估，确保公平比较。评估指标包括MAE（平均绝对误差）、RMSE（均方根误差）、sMAPE（对称平均绝对百分比误差）和MASE（平均绝对缩放误差）。

### 24小时预测结果（MAE/MASE）

| 模型 | MAE (MW) | MASE |
|------|----------|------|
| 集成模型（XGB+LSTM+Time-LLM） | 263 | 0.49 |
| Time-LLM（冻结GPT-2） | 271 | 0.50 |
| XGBoost | 277 | 0.51 |
| LSTM | 302 | 0.56 |
| Prophet | 418 | 0.78 |
| 朴素持续性 | 505 | 0.94 |
| GPT-4o零样本 | 481 | 0.89 |
| GPT-4o少样本 | 775 | 1.44 |

### 48小时预测结果（MAE/MASE）

| 模型 | MAE (MW) | MASE |
|------|----------|------|
| 集成模型 | 299 | 0.55 |
| Time-LLM | 317 | 0.59 |
| XGBoost | 315 | 0.59 |
| LSTM | 329 | 0.61 |
| Prophet | 463 | 0.86 |
| 朴素持续性 | 632 | 1.17 |
| GPT-4o零样本 | 535 | 0.99 |
| GPT-4o少样本 | 725 | 1.35 |

---

## 关键洞察与分析

### LLM并非万能，但特定架构表现亮眼

研究结果揭示了一个 nuanced 的结论：直接提示商业LLM（如GPT-4o）进行数值预测的效果并不理想。零样本GPT-4o的24小时MAE为481MW，甚至略差于朴素持续性模型（505MW）；少样本学习的表现更差（775MW），说明简单的上下文学习并不能弥补LLM在数值时序任务上的固有局限。

然而，Time-LLM的表现却令人印象深刻。它采用冻结的GPT-2骨干网络，通过可学习的重编程层将时间序列映射到LLM的表示空间。这种方法在24小时预测任务中取得了最佳单模型表现（MAE 271MW），甚至超过了专门训练的XGBoost和LSTM。这说明LLM的预训练知识确实可以被有效利用，但关键在于如何适配——直接提示是不够的，需要专门的架构设计。

### 传统方法依然强劲

XGBoost在两项预测任务中都取得了接近最佳的表现（24h MAE 277MW，48h MAE 315MW），证明了特征工程在传统机器学习中的价值。LSTM的表现略逊于XGBoost，但仍优于统计基线模型。

### 集成模型的优势

研究还测试了简单平均和逆MAE加权两种集成策略。由XGBoost、LSTM和Time-LLM组成的集成模型在两项任务中都取得了最佳表现（24h MAE 263MW，48h MAE 299MW），体现了模型多样性的价值。

### 超参数调优的影响

研究使用Optuna对XGBoost和LSTM进行超参数优化，对Prophet进行网格搜索。结果显示，调优可以显著提升模型表现，例如XGBoost在调优后MAE降低了约15%。

---

## 实际意义与应用启示

这项研究对能源行业和AI应用都有重要参考价值。对于电网运营商和电力交易机构，研究表明：

1. **混合策略最优**：结合传统机器学习（XGBoost）、深度学习（LSTM）和适配后的LLM（Time-LLM）的集成模型表现最佳，单一模型难以覆盖所有场景。

2. **LLM需要专门适配**：直接使用GPT-4o API进行电力预测目前还不具备实用价值，但通过Time-LLM这类架构将LLM能力引入时序预测是可行的。

3. **特征工程仍有价值**：XGBoost的强劲表现说明，在时间序列任务中，领域知识和精心设计的特征依然重要，不应盲目追求端到端的深度学习。

4. **统计模型作为基线**：Prophet和ARIMA虽然表现不如ML/DL方法，但在数据有限或需要可解释性的场景下仍有价值。

---

## 研究局限与未来方向

研究主要使用比利时单一电网的数据，结论的泛化性有待在更多数据集上验证。此外，Time-LLM的成功依赖于预训练的GPT-2，而不同LLM骨干网络对时序适配的影响值得进一步探索。

对于少样本GPT-4o表现不佳的现象，研究者推测可能是由于示例选择策略或提示设计不够优化。如何更好地利用LLM的上下文学习能力进行数值预测，仍是一个开放问题。

---

## 总结与收获

这项系统性的对比研究为我们理解LLM在时间序列预测中的能力边界提供了宝贵数据。核心结论是：LLM确实可以助力能源预测，但前提是通过专门的架构（如Time-LLM的重编程层）进行适配；直接提示商业LLM进行数值预测目前还不是可行的替代方案。

对于从业者而言，最实用的收获是：在短期电力负荷预测任务中，一个精心设计的XGBoost模型配合适当的特征工程，仍然是非常强劲的选择；而如果想进一步提升精度，可以考虑引入Time-LLM等LLM适配方法，并通过集成策略组合多种模型的优势。