基于EEMD-LSTM组合模型石家庄月降水量预测研究

2024-02-23 12:27
水利科技与经济 2024年2期
关键词:石家庄降水量模态

秦 壮

(河北省石家庄水文勘测研究中心,石家庄 050000)

1 概 述

气候变化深刻影响人类社会,降水量变化对农业、水资源管理等领域产生重大影响,准确的降水量是旱涝防御、节水和农作物灌溉等工作前提。但由于气候系统复杂性和不确定性,降水量预测一直是气象学领域面临的挑战。石家庄位于华北平原西南部,是灌溉农业聚集地,降水对其农业生产和生态环境具有重要影响。由于该地区降水量分布不均匀,且具有明显的季节性变化,传统数学统计方法在降水量预测方面存在一定局限性。因此,需借助建模技术来提高其预测可靠性。

近年来,深度学习技术在气象预测领域取得显著进展。其中,长短时记忆网络(Long Short-Term Memory)作为一种特殊的循环神经网络,具有良好的序列建模能力。但由于降水序列具有非线性和非平稳性特点,传统LSTM模型在降水量预测中仍存在一定局限性。

为此,本文引入经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)方法,将降水序列分解成一系列固有模态函数(IMFs),并通过LSTM网络对每个IMF进行预测,可将复杂的降水序列转化为多个简单的子序列,可以提高预测模型的准确性和稳定性。本研究的目的是基于EEMD-LSTM算法,对石家庄逐月降水量进行预测,并与传统模型进行对比分析。

1.1 研究区概况

研究区位于华北平原西南向太行山地延伸地带的石家庄市,空间位置为E113°3′-E115°2′、N37°27′-N38°4′,辖区总面积15 848km2。属土石山地、平原分异地貌,高程自西向东递减,介于0~2 281m。受季风环流与海陆位置影响,形成温带大陆性季风气候,多年平均气温13℃、降水量545mm、蒸发量1 650mm。研究区下辖正定、赵县等县区,降水量呈现自东向西减少。见图1。

图1 气象站点数据分布示意图

1.2 气象资料来源

本研究月降水量资料来自气象数据共享服务网站 (http://dctc.cmc.cn/),获取研究区12个气象站点自1981-2020年日数据集,经合成后得到480个逐月序列数据。该原始数据经过质量控制,已在气象、水土科学中得到广泛应用。选取1981-2010年月降水序列(共360个月)为训练集,2001-2020年月序列(共120个月)为验证集。

1.3 EEMD分解法

EEMD是建立于EMD基础上的一种改进的数据分解算法,其旨在通过加入白噪声解决EMD方法中存在模态混叠现象,进而生成精准包络线。EEMD具有自适应性,能够在不需要预先选择小波基的情况下,根据信号的不同特征尺度自动产生基函数,并且仿真信号的EMD分解可重构成出原始信号。其主要流程如下:

①基于逐月降水量序列X(t)中的极大或极小值Ei(1≤i≤n),计算出邻域中值Fi(1≤i≤n-1)。

②利用最小二乘法,拟合全部n+1个中值点连成的k值曲线,则曲线平均值:

L*=(L1+L2+…+Lk)/k

(1)

③迭代前两个步骤,直至得到筛选次数达到预设最大值q或满足 或|L*|≤ε(ε为允许误差),由此分解到第一模态分量MF1。

④基于数据结构与长度,自适应提取生成其他IMF。

⑤原径流序列X(t)可重构为所有模态分量与残差趋势项之和:

X(t)=∑Mi+R0

(2)

1.4 LSTM模型

式中:W为隐藏状态到输出的权重矩阵;b为对应的偏置项;ht为t时刻LSTM输出值。

φ=δ[Wo(ht-1,xt)]+bo

(5)

ht=φttanh(Ct)

(6)

式中:δ为激活函数sigmoid;ht为t时刻LSTM输出值。

2 结果与分析

2.1 石家庄逐月降水量时间序列特征

由图2可知,研究区逐月降水量呈非线性变化,其总体呈跃迁波动性。近480个月序列中,最大值出现在第470个月,达72.8 mm;最少月仅为15.2 mm,出现在第67月;其整体离差系数为36.5%,表明其波动性强烈。统计得到该时域内,月降水量变化的倾向斜率为-0.0013,变化形式为y=-0.0013x+41.767,R2=0.0002,但并不具有统计意义(P>0.05)。由此可见,常规线性拟合方法难以捕捉其非平稳性特征,这增加了降水量预测难度。

图2 研究区逐月降水量序列变化

2.2 基于EEMD石家庄月降水量分解特征

将研究区480个逐月径流量序列使用EEMD解析,得到若干固有模式函数(IMF),其结构见图3。由图3可知,随着模态数增加,其频率域信息量减少、波动性变弱,而残差趋势项描述了月降水量序列整体倾向趋势特征。在此基础上,利用周期图法计算得到第一模态(IMF1)的方差贡献率最大,为32.83%,承载了降水量分量强烈波动信息;IMF2-IMF4次之,分别为24.20%、16.45%、11.29%;IMF5-IMF7仅为1.96%~8.44%,其承载的分量信息率较低。IMF代表了时间序列中的不同频率分量,通过对IMF进行分析,可以了解降水量的周期性和趋势性变化。

2.3 基于EEMD-LSTM逐月降水量预测性建模分析

为了验证EEMD-LSTM算法的有效性,将数据集划分为训练集和测试集。其中,训练集用于训练,验证数据用于测试。7项模态分量以及残差项作为输入变量,利用Rustudio开源平台设计LSTM网络,为确定模型性能,采用贝叶斯方法进行参数优化。LSTM网络中包含隐藏层大小(hidden_size)、网络层数(n_layer)、Dropout、滑动窗口大小(window size) 、学习率(learn rate) 、梯度截断(Gradient Clipping)等关键参数。其中,hidden_size 影响模型所能捕捉的训练数据复杂度;n_layer控制模型的复杂度;Dropout是为了防止模型过拟合而添加的正则化项,以减小过拟合的风险;window size 为记忆单元长度、learn rate控制收敛速度、Gradient Clipping防止梯度爆炸或梯度消失。将其通过贝叶斯参数试错分析,确定以上6项模型参数配置依次为150、16、0.5、13、0.03、0.1。

图4为EEMD-LSTM算法预测的研究区2010-2020(第361-480月份)的降水量。由图4可知,该模型准确模拟了降水量变化形态,对径流丰枯变化、相位跃迁具有较高溯源性。经计算,得到模型验证精度决定系数R2为0.92,MAE和RMSE分别为2.14、3.13mm,显示了该模型较高拟合性能,因此具有良好应用潜力。

该算法的成功应用,一方面在于EEMD分解的模态可将非线性逐月降水数据转化为若干简易、静态序列变量,极大地去除了数据噪声而仅保留有益的信息;另一方面在于LSTM善于利用EEMD分解得到的IMF信息溯源降水变化,在前向模拟过程中加入历史信息,从而有助于提高预测性能。

图4 研究区逐月降水量序列预测精度图

3 结 论

本文通过应用EEMD-LSTM算法,对石家庄市逐月降水量进行了预测,结论如下:通过EEMD分解去除原始降水量序列中的噪声,并将其分为独立模态IMF和残差,包括降水量变化非线性、非平稳、周期性特征,促进了模型解释性。EEMD-LSTM模型以每个IMF作为输入,能够较好地捕捉时间序列数据中的非线性和长期依赖关系。

但本研究也存在一些限制:①只考虑了石家庄市的逐月降水量数据,对于其他地区预测效果还需要进一步验证;②EEMD-LSTM算法的参数选择对于预测结果的影响较大,需要进一步优化参数选取方法,以提高预测精度;③还可以考虑将其他气象数据如温度、湿度等纳入模型中,以提高预测效果。

猜你喜欢
石家庄降水量模态
绘制和阅读降水量柱状图
石家庄晓进机械制造科技有限公司
降水量是怎么算出来的
1988—2017年呼和浩特市降水演变特征分析
梁丛
人民币缘何诞生在石家庄
基于小波变换的三江平原旬降水量主周期识别
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度