基于深度学习模型及组合模型的沙漠面积预测研究

2024-04-02 03:42张建杰
现代电子技术 2024年7期
关键词:准确度预测值沙漠

陈 省,张建杰

(新疆大学软件学院,新疆乌鲁木齐 830000)

0 引 言

中国是遭受荒漠化最严重的国家之一,据相关报道,我国每年因荒漠化造成的直接经济损失高达60 亿美元以上。土地荒漠化问题是实现民族复兴、建设美丽中国必须解决好的环境问题。新疆的沙漠面积很大,占中国沙漠面积2 3,新疆的土地中约1 4 被沙漠所占据。很长时间以来,新疆地区的各族人民深受风沙之害,他们强烈渴望治理好风沙,早日拥有宜居的生态环境。

自本世纪初,国家对塔里木河流域的生态环境已经投入107 亿元资金进行生态环境综合治理[1]。塔里木河干流土地利用受到人类活动的严重影响,自2000 年以来,耕地面积增加十分明显,净增土地面积2 229 km2,草地面积整体减小,萎缩面积达3 157 km2。

国内沙漠面积或沙漠化趋势预测常用的方法有地理信息系统(Geographic Information System, GIS)与层次分析(Analytic Hierarchy Process, AHP)法耦合技术的土地沙漠化模型、GIS 和元胞自动机的预测模型、艾滋病传染病预测模型、微分方程预测模型、马尔可夫预测模型、指数平滑预测模型、CA-Markov 预测模型。虽然这些方法均可以对沙漠面积进行预测,但都有不足之处。

GIS 与AHP 耦合技术预测结果受到数据质量的限制以及决策者主观因素的影响,同时也可能对不确定性因素的处理有限。GIS 和元胞自动机在预测时可能存在精度问题,确定合适的参数设置可能是困难的,且可能会导致模型结果的不确定性。沙漠扩散预测微分方程模型受到空间尺度限制,无法完全解释非线性行为,沙漠扩散过程受到人为干预的影响。马尔可夫模型要求状态空间必须是离散、有限且固定的,对于具有连续状态空间或者动态变化的状态空间的问题,马尔可夫模型可能不适用。沙漠预测数学模型在一定程度上可以提供参考,但其预测结果仍然受到数据不确定性、模型简化假设、主观性参数选择以及长期趋势预测能力等局限性的影响。沙漠扩散预测涉及到非线性过程,而微分方程模型通常基于线性假设,因此无法完全解释非线性行为。CA-Markov 模型预测精度有限,受到时空尺度限制。

本文尝试使用多种不同的沙漠面积预测模型对沙漠面积进行预测,试图找到更好的沙漠面积预测方法,帮助新疆若羌县环保部门更加高效地做好沙漠防治工作。首先,使用统计学模型ARIMA 预测沙漠面积;其次,使用深度学习模型中的RNN、LSTM、GRU 预测沙漠面积;最后,使用3 个组合模型预测沙漠面积,企图提高预测的准确度和稳定性。

组合模型是一种集成多个预测模型的方法,通过结合每个模型的预测结果来获得更准确的预测结果。组合模型的基本思想是:通过综合多个模型的预测,可以弥补单个模型的不足,提高整体预测的准确性。

组合模型有多种形式,常见的组合模型包括投票法、加权平均法和堆叠法等。投票法通过多数表决或加权表决的方式决定最终预测结果;加权平均法将各个模型的预测结果按一定权重进行加权平均,得到最终预测结果;堆叠法则通过建立一个次级模型来结合各个基模型的预测结果,得到最终预测结果。本文组合模型使用加权平均法得到沙漠面积预测结果。

1 深度学习模型和组合模型

深度学习(Deep Learning, DL)是机器学习的一个分支,通过组合低层特征信息来形成抽象的高层表达[2]。实际上,深度学习是一种机器学习方法,由深层神经网络和机器学习组成,它能学习到数据中深层次、本质的特征,并且通过逐层训练降低训练难度。

人工神经网络(Artificial Neural Network, ANN)模拟人脑的神经网络产生,利用物理方法模拟生物神经网络的某些结构和功能[3],是一种基于数学和机器学习技术的计算机模型,它模拟了人脑的工作原理,具有自适应、自组织和自学习的能力。1943 年,Mcculloch 和Pitts创造了神经网络计算模型。1949 年,心理学家Hebb 提出Hebb 型学习假说,解释了神经元组成联接形成记忆印痕的内部机理[4]。

卷积神经网络(Convolutional Neural Network, CNN)是一种深度神经网络,常用于处理具有类似网络结构的数据。第一个卷积神经网络模型Alexander Waibel是根据neocognitron 神经网络提出的[5]。自从Hinton 在2012 年提出AlexNet 之后,人们开始对CNN 加大了研究力度。ZFNet、VGG、GoogleNet、ResNet 相继出现,逐步优化了CNN 模型的性能。

CNN 在机器视觉、图像分类等领域上都达到了目前研究最好的效果[6]。随着新的网络模型不断发展,出现了VGGNet、GoogleNet、ResNet 等网络。

循环神经网络(Recurrent Neural Network, RNN)是一种基于循环神经网络的机器学习技术,它能够处理序列数据,包括历史信息和上下文信息。通过内部的循环单元和其他隐藏层处理信息,使模型能够预测下一时刻的输入和输出。RNN 模型包括三层:输入层、隐藏层和输出层[2]。

RNN 通常由多个前馈神经网络组成,每个前馈神经网络都包含一个时间向量和一个前向传播算法。时间向量用于表示序列中的过去信息和现在信息,梯度下降用于更新模型的参数并预测未来的输出。与普通的神经网络不同,RNN 不仅可以处理时间信息,还可以处理空间信息。因此,循环神经网络可以用于处理复杂的序列数据,如语音、文本、图像等。

循环神经网络和传统的神经网络相比,循环神经网络除了层与层之间的全连接之外,神经元之间也是相互连接的[3]。随着RNN 不断的发展,研究者们发现RNN 网络存在梯度爆炸和梯度消失问题。Hochreiter &Schmidhuber 提出LSTM 网络,它被主要用来处理RNN中存在的梯度消失问题。

长短期记忆(Long Short-Term Memory, LSTM)网络是一种用于时间序列预测的循环神经网络。LSTM 使用tanh 和Sigmoid 函数作为激活函数[3],通过内部的长短期记忆单元来处理时间序列数据,从而实现了长期记忆和短期记忆的功能。

LSTM 具有与RNN 相同的链式结构,能够较好地体现时间序列的概念特征。与RNN 网络相比,LSTM 不仅有一个短时记忆状态控制单元,还增加了一个长时记忆控制单元[4]。在训练过程中,将上一个时间节点完成的数据训练信息通过记忆保存到下一个时间节点,从而增加了训练过程前后时间节点的相关性,并且在传递过程中不断放弃无效信息,使得模型训练更高效、精准[7]。

门控循环单元(GRU)是由Kyunghyun Cho 等人于2014 年引入的[8]。GRU 通过Sigmoid 激活函数将上一个时刻和当前时刻的信息拼接后形成一个限制,对信息加以限制,实现长序列信息的传递。GRU 神经网络对LSTM 进行了改进,它能实现LSTM 相同的效果,而且内部所需要训练的参数变少,提高了训练的速度,节约了计算资源[9]。

2 材料与方法

2.1 数据来源

新疆若羌县沙漠面积数据从资源环境科学与数据中心下载并经过应用相关软件进行计算后统计得到,其网址为https://www.resdc.cn。下载并安装ArcGIS 软件,打开已下载好的遥感监测数据,用该软件计算栅格图中沙地的面积。本文得到的沙漠面积数据经使用软件中面积计算工具人工划分新疆地区卫星遥感地图和分块测量并求和得到。

若羌县历史天气数据来源于2345 天气王网站公开的数据集。若羌县GDP 数据、第一产业GDP、第二产业GDP、第三产业GDP 来源于若羌县统计局。若羌县粮食产量、谷物、小麦、玉米和棉花产量数据来源于新疆统计局。2020 年若羌县东部地区卫星图像如图1 所示。

图1 2020 年若羌县东部地区卫星图像

2.2 数据预处理

把每张图中计算得到的沙漠面积汇总整理成Excel表,如表1~表5 所示。

表1 若羌县东部地区沙地面积

表2 若羌县历史天气记录部分信息表℃

表3 若羌县2011—2020 年粮食产量、谷物、小麦、玉米信息表t

表4 若羌县2011—2020 年GDP、第一产业GDP、第二产业GDP、第三产业GDP 信息表亿元

表5 若羌县2011—2020 年棉花产量、果用瓜产量信息表t

2.3 数据集制作

沙漠面积原始数据太少,需要进行数据扩充,本文选择等差数列填充法对缺失的数据进行填充。用前后两年的沙漠面积作差取绝对值后除以60 作为公差,依次递加或递减。类似地,对若羌县2011—2020 年粮食产量、谷物产量、小麦产量、玉米产量、棉花产量、果用瓜产量、年度GDP、第一产业GDP、第二产业GDP、第三产业GDP 这些数据进行扩充加入数据集中。ARIMA 模型实验中,把1990—2015 年共6 组数据作为训练集,把2020 年数据作为测试集。神经网络模型实验中把数据集按照7∶3 比例划分为训练集和测试集。

2.4 模型评价标准

采用MSE、RMSE、MAE 对各个模型进行性能评估。

1)均方误差

2)均方根误差

3)平均绝对误差

式中:yi是实际值是预测值;m是预测值的总数。MSE、RMSE、MAE 越小,说明预测模型的准确度越高。

2.5 深度学习模型参数优化

2.5.1 RNN 模型参数优化

经过多次实验最后确定RNN 模型参数如表6 所示。

表6 RNN 模型参数

2.5.2 LSTM 模型参数优化

经过多次实验最后确定LSTM 模型参数如表7所示。

表7 LSTM 模型参数

2.5.3 GRU 模型参数优化

经过多次实验最后确定GRU 模型参数如表8 所示。

表8 GRU 模型参数

3 模型预测

3.1 ARIMA 模型预测

用经过数据训练的ARIMA 模型预测2020 年、2025 年、2030 年若羌县东部地区沙漠面积。将预测的沙漠面积数据结合已有的若羌县东部地区沙漠面积数据可以得到若羌县东部地区1990—2030 年的沙漠面积变化趋势图,如图2 所示。2020—2030 年沙漠面积保持平稳缓慢增长。因为相邻数据中间年和月份的数据收集不到,故使用折线图大致描绘出沙漠面积变化趋势。

图2 若羌县东部地区1990—2030 年的沙漠面积变化折线图

3.2 RNN 模型预测

通过对数据进行训练后得到了实际值与预测值之间的关系,如图3 所示。图中,虚线表示原数据,实线表示预测的结果。图4 中,训练集和验证集损失随着训练迭代次数的增加不断减小,可知模型训练效果良好。用RNN 模型对2020 年若羌县东部地区流域沙漠面积预测值为15 249 km2。

图3 实际沙漠面积和RNN 预测沙漠面积

图4 RNN 训练集和验证集损失

3.3 LSTM 模型预测

通过对数据进行训练后得到了实际值与预测值之间的关系,如图5 所示。图中,虚线表示原数据,实线表示预测的结果。根据图形可以看出模型的拟合还是比较好的。图6 中,训练集和验证集损失随着训练迭代次数的增加不断减小,可知模型训练效果良好。用LSTM 模型可以预测2020 年若羌县东部地区沙漠面积为15 481 km2。

图5 真实值和LSTM 预测值趋势图

图6 LSTM 训练集损失和验证集损失

3.4 GRU 模型预测

对数据进行训练后得到了实际值与预测值之间的关系,如图7 所示。图中,虚线表示原数据,实线表示预测的结果。图8 中,训练集和验证集损失随着训练迭代次数的增加不断减小,可知模型训练效果良好。用GRU 模型对2020 年若羌县东部地区沙漠面积预测值为15 687 km2。

图7 实际沙漠面积和GRU 预测沙漠面积

图8 GRU 训练集和验证集损失

3.5 组合模型预测

本文选择误差方差加权平均法确定组合模型中各个模型的权重。根据ARIMA模型和三个改进的神经网络模型,对2020 年沙漠面积的预测值及真实值采用误差方差加权平均法确定每个组合模型中各个分块模型的权重。

3.5.1 ARIMA-RNN 模型预测

计算得到ARIMA、RNN 权重分别约为0.108 4、0.891 6。结合各个模型的预测值即可计算出组合模型的预测值,如表9 所示。

表9 ARIMA-RNN 组合模型评估表

ARIMA-RNN 预测的2020 年若羌县东部地区沙漠面积约为15 093.6 km2。

3.5.2 ARIMA-LSTM 模型预测

计算得到ARIMA、LSTM 权重分别约为0.066 6、0.933 4。结合各个模型的预测值即可计算出组合模型的预测值,如表10 所示。ARIMA-LSTM 预测的2020 年若羌县东部地区沙漠面积约为15 306.89 km2。

表10 ARIMA-LSTM 组合模型评估表

3.5.3 ARIMA-GRU 模型预测

计算得到ARIMA、GRU 权重分别约为0.035 8、0.964 2。结合各个模型的预测值即可计算出组合模型的预测值,如表11 所示。ARIMA-GRU 预测的2020 年若羌县东部地区沙漠面积约为15 632.34 km2。

表11 ARIMA-GRU 组合模型评估表

3.6 模型对比与分析讨论

所有实验进行对比,结果如表12 所示。从预测准确度方面看,ARIMA 模型的预测准确度最低约为82.95%,改进的神经网络模型预测准确度均大于94%,GRU 模型预测准确度最高,组合模型的预测准确度均大于93.08%。其中ARIMA-GRU 组合模型的预测准确度约为96.40%;从均方根误差方面看,该模型最优。

表12 模型实验对比

深度学习模型中RNN 模型的预测准确度最低约为94%。深度学习模型同样存在缺陷,如数据需求量大,可能出现误差积累,对数据质量敏感。ARIMA-GRU 组合模型的预测准确度最高约为96.40%。组合模型能够很好地结合各个单一模型的优点,能够提高单一预测模型预测的准确度。每个模型都有适用的场景和范围,因此在使用模型时需要认真分析并用实验验证模型的可靠性。

4 结 语

本文对新疆若羌县东部地区的沙漠面积进行不同的模型预测对比,寻找到了更具有实用性和稳定性的ARIMA-GRU 组合预测模型,其预测准确度约为96.40%,均方根误差约为192.628。实验证明,深度学习模型在沙漠面积预测中预测准确度高且性能良好。组合模型能够提高沙漠面积预测的准确性和稳定性,能避免单一模型预测的局限性和风险性,适用于沙漠面积预测领域。

注:本文通讯作者为张建杰。

猜你喜欢
准确度预测值沙漠
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
沙漠之旅
走进沙漠
法电再次修订2020年核发电量预测值
走进沙漠
幕墙用挂件安装准确度控制技术
穿越沙漠
动态汽车衡准确度等级的现实意义
高炉重量布料准确度的提高