正文

TIME-IMM时间序列预测框架复现：多源异步数据的多模态融合实践

该项目复现并扩展了NeurIPS 2025的IMM-TSF基准框架，针对EPA-Air数据集（多源异步类型）进行时间序列预测实验。成功复现7个基线模型，完成文本编码器选择、架构家族效应和安慰剂测试三项消融实验，验证了多模态融合在不规则时间序列预测中的实际效果。

TIME-IMM时间序列预测多模态融合不规则数据EPA-AirIMM-TSFNeurIPSRAG向量嵌入消融实验

发布时间 2026/05/13 01:39最近活动 2026/05/13 01:52预计阅读 3 分钟

章节 01

【导读】TIME-IMM时间序列预测框架复现与扩展研究核心总结

本项目复现并扩展NeurIPS 2025的IMM-TSF基准框架，针对EPA-Air多源异步数据集开展时间序列预测实验。成功复现7个基线模型，完成文本编码器选择、架构家族效应、安慰剂测试三项消融实验，验证多模态融合在不规则时间序列预测中的效果，并揭示编码器选择、架构匹配等关键因素对融合效果的影响。

章节 02

研究背景与EPA-Air数据集特性

研究背景与挑战：时间序列预测中，现实数据常因传感器故障等呈现不规则性，多源异步（多数据源独立采样）是典型挑战。TIME-IMM数据集与IMM-TSF框架旨在解决此类问题。

EPA-Air数据集特性：来自TIME-IMM基准，含美国8县4项环境指标（AQI、臭氧、PM2.5、温度），共约49552条观测，分布于6587个时间戳，平均间隔1.02小时，特征可观测性熵0.3777（稀疏性高），含1244条天气新闻摘要；上下文窗口与预测范围均为7天，训练/验证/测试按时间划分为60%/20%/20%。

章节 03

基线模型复现结果

成功复现原论文7个基线模型，多模态融合平均降低MSE约2.1%（低于原论文跨数据集平均6.7%）。部分模型获益显著：DLinear（-2.6%）、Informer（-8.3%）、TimeMixer（-7.3%）；TimesNet等模型效果负面（如TimesNet MSE上升5.8%），或因文本与传感器信号语义对齐弱。尝试复现TimeLLM等4模型遇技术障碍：TimeLLM需调整patch_size，CRU等因ODE求解器数值不稳定失败。

章节 04

消融实验一：文本编码器选择的影响

原论文称编码器选择影响可忽略，但本实验对比GPT-2与BERT发现，编码器选择对EPA-Air数据集影响显著，单个模型性能波动达13.3个百分点。如TTM模型：GPT-2时文本融合降性能6.0%，BERT时提升7.3%，挑战原论文结论，表明特定数据集下编码器选择是关键因素。

章节 05

消融实验二：架构家族与文本收益的关联

模型架构家族与文本融合收益存在规律：非patch模型（DLinear、Informer等）使用两种编码器均获益，平均MSE降约3%；基于patch的模型（PatchTST、TTM等）模式复杂：GPT-2时平均降性能4.6%，BERT时平均提升3.0%，提示设计多模态模型需考虑架构与融合策略匹配。

章节 06

消融实验三：安慰剂测试验证语义价值

为验证文本融合收益是否来自真实语义，用随机噪声文本替代真实天气新闻做安慰剂测试。结果：7个模型中仅3个展现真实语义收益（真实文本显著优于噪声），2个有安慰剂效应（差异<1%），2个真实文本表现更差。表明多模态融合效果依赖数据集特性与模型架构，并非总是有效。

章节 07

技术实现与研究局限

技术实现：实验在Google Colab Pro的A100 GPU运行，因显存限制改用GPT-2（768维）替代DeepSeek编码器；TTF/MMF模块用TTF_RecAvg+MMF_GR_Add组合；数据预处理用Kaggle原始数据+Google Drive缓存文本嵌入；训练超参数统一：历史窗口7天、预测范围7天、步长7天、批量8、学习率1e-3、最多50epoch、早停耐心10。

局限：未用原论文DeepSeek编码器，未遍历所有TTF/MMF组合；仅在EPA-Air数据集实验，结论普适性需更多验证。

章节 08