基于SSA-LSTM的玉米土壤含氧量预测模型

2023-01-05 03:56于珍珍邹华芬于德水刘天祥张欣悦
农业机械学报 2022年11期
关键词:适应度麻雀大气

于珍珍 邹华芬 于德水 汪 春, 刘天祥 张欣悦

(1.黑龙江八一农垦大学工程学院,大庆 163319;2.中国热带农业科学院南亚热带作物研究所,湛江 524003;3.华中科技大学管理学院,武汉 430074)

0 引言

土壤含氧量(Soil oxygen content,SOC)是影响作物生长发育的重要土壤环境因子,土壤中水分、气体比例不协调是农业可持续发展的主要障碍,也是影响我国生态环境健康和农业生产发展的重要制约因素[1-2]。当SOC小于10%时,作物有氧呼吸受阻或者中断,作物水分和养分利用效率下降,呼吸作用产生的三磷酸腺苷(ATP,高能磷酸化合物)水平下降[3-5]。植物地上部分则表现为叶片萎缩,作物鲜质量和干质量显著下降,是农作物高产的主要限制条件[6-7],加气灌溉技术是目前对土壤进行通气增氧的有效措施,但是由于土壤环境复杂而不稳定,土壤氧气含量变化具有时序性、不稳定性和非线性等特点,通气增氧的相关参数尚未形成量化体系[8-10]。SOC容易受到气象因子(大气温湿度、太阳辐射、降雨量等)及土壤环境因子(土壤温度、土壤含水率等)的影响[11-13],各因素存在复杂的耦合关系,因此,建立SOC预测模型对于作物种植具有重要的生产意义,也为土壤通气增氧技术的管理决策提供理论依据。

近几年人工神经网络迅速发展,在解决函数逼近与数据预测等问题上效果良好[14-16],但是关于土壤含氧量预测方面的研究未见报道。关于水中溶解氧(Dissolved oxygen,DO)预测取得了一定的研究成果。长短时记忆(Long and short-term memory,LSTM)神经网络模型,对长时间序列数据层具有较好的传递记忆功能,可以深度挖掘长距离时序数据信息,并且能消除反向梯度消失问题,被广泛应用于各个领域[17]。LIU等[18]利用注意机制和递归神经网络通过水温、大气相对湿度、太阳辐射等预测DO。HUAN等[19]以pH值、水温、大气相对湿度等为影响因素,采用基于梯度增强决策树(GBDT)特征选择的LSTM模型对DO进行预测;陈英义等[20]提出了基于WT-CNN-LSTM的溶解氧含量预测模型,提高池塘溶解氧的预测精度,后期,曹守启等[21]提出了基于K-means聚类和改进粒子群优化(Improved particle swarm optimization,IPSO)的LSTM神经网络预测模型,该模型一定程度解决了天气突变状况下的数据缺失、鲁棒性差等问题。

LSTM预测的准确性与其权重和阈值的设置密切相关[22-23]。生物启发式算法是LSTM参数优化的有效方法,包括遗传算法(Genetic algorithm,GA)[24-26]、粒子群算法(Particle swarm optimization,PSO)[27-30]、蝙蝠算法(Bat algorithm,BA)[31]、灰狼优化算法(Grey wolf optimizer,GWO)[32-34]和麻雀搜索算法(Sparrow search algorithm,SSA)[35-37]。其中,SSA基于麻雀种群的觅食和反捕食行为,解决模型输入权值和阈值的随机变化问题,具有高性能全局搜索能力,稳定性及收敛精度好。SSA算法具有较快的收敛速度和强大的搜索能力,采用网格搜索对LSTM神经网络模型的初始权值和阈值进行优化,克服了传统神经网络模型参数选择的盲目性和不确定性,目前,SSA被广泛应用于非线性时间序列数据处理,如短期风速预报、降雨分析预报,在收敛速度和寻优精度等方面有着显著优势且结构简单、能准确应对复杂问题。

本研究提出SSA-LSTM神经网络模型预测土壤含氧量,基于国家土壤质量湛江观测实验站2021年田间获取的气象因子及土壤环境因子,通过皮尔逊相关系数(Pearson correlation coefficient,Pearson)及斯皮尔曼相关系数(Spearman’s rank correlation coefficient,Spearman)明确土壤含氧量变化影响因子的主次顺序,基于麻雀搜索算法优化建立SSA-LSTM神经网络预测模型,并与传统的BP预测模型、LSTM预测模型、GA-LSTM预测模型及PSO-LSTM预测模型训练前后的精度及预测误差进行对比,为探究土壤含氧量变化规律及土壤通气增氧技术整体管理措施调整及决策提供技术指导。

1 材料与方法

1.1 数据来源

研究区域位于广东省湛江市(110°27′E,21°16′N)国家土壤质量湛江观测实验站,年平均日照时间为2 160 h,无霜期为350 d,年平均气温为23.2℃,是典型的的亚热带季风气候。试验时间为2021年8月21日—11月12日,季节性种植作物为玉米,试验区域及定位试验点如图1所示。

图1 研究区域及定位试验点示意图

SOC主要来自土壤与大气之间气体交换。土壤空气组成与大气空气组成近似(表1)。土壤O2浓度低于大气,土壤和大气之间产生O2分压差,在分压梯度的驱动下,O2不断从大气向土壤空气扩散。土壤与大气之间进行气体扩散和整体交换,使得土壤中保持一定量O2(图2a)。大气环境主要通过影响气体扩散进而影响SOC。大气环境因素中,WILLEY等[10]研究表明,大气温度(Atmospheric temperature,Ta)变化是引起大气与土壤气体交换的主要因素,同时发现,随着风速(Wind speed,SW)和大气相对湿度(Atmospheric humidity,RH)的升高,SOC也逐渐提高。

表1 土壤空气与大气空气组成成分比较

土壤中连续的充气孔隙是作物根系-土壤-大气之间唯一的联系通道[30]。土壤充气孔隙度(Air-filled porosity,AFP)充满了空气或水以及溶解的物质,固体为根和固定植物结构提供支持,水分满足作物蒸腾需求,空气为作物根系(和微生物)呼吸提供氧气。O2以溶解氧方式通过根外水膜扩散到根系表面,最后,氧气由根系表面扩散到根组织内,用于维持土壤中一切生物化学过程正常进行(图2c)。田间灌溉和降雨(Rainfall,RF)会使土壤中持续存在饱和湿润区,导致水分代替空气存在于土壤中,进而限制了SOC的可利用性和移动性(图2d),土壤SOC降低会导致作物根系土壤低氧胁迫,土壤呼吸(土壤中各项代谢活动)将受到限制(图2b)。

图2 大气-土壤-作物之间O2交换示意图

土壤温度(Soil temperature,Ts)以多种方式影响土壤氧气的移动性与可利用性。首先,氧气在水中的溶解度与溶液温度成反比[11],其次,土壤温度通过影响土壤呼吸(图2d)(Soil respiration,Rs)进而影响SOC的变化[13]。土壤含水率(Soil water content,Ws)是影响SOC的关键因素。THONGBAI等[38]和BHATTARAI等[39]的研究均表明较高的水分变化可以调控植物体内水分的再分配和改变土壤的透气性,从而影响植物体和微生物的代谢活动,最终导致SOC发生变化,通过进一步采用关联系数法发现,较高的土壤水分不但阻碍大气与土壤之间的气体交换,直接导致SOC下降,也会抑制O2在作物根部周围运动[11]。

因此,本研究选取Ta、RH、RF、SW、AFP、Ts、Rs及Ws共8个指标作为输入,以SOC作为输出构建网络模型进行训练和预测。

1.2 数据处理

气象数据采用小气候观测仪(CAWS2000型,北京华云尚通科技有限公司),采集的气象数据主要包括Ta、RH、RF和SW;土壤温湿度(Ts和Ws)主要由浙江托普云农科技股份有限公司生产的TZS-PHW-4G型土壤多功能参数测定仪测定,可以自动存储数据,土壤温度测试范围为-40~100℃,精度为±0.5℃,分辨率为0.1℃;土壤含水率测试范围为0~100%,精度小于等于3%,分辨率为0.1%。

SOC采用MO-200型土壤氧气测定仪进行定位记录,由于土壤深度10 cm左右与大气气体交换较为通畅,一般不会出现缺氧现象,而作物根系大部分分布在土壤深度30~40 cm,所以本试验选择测定深度为30 cm。Rs采用Li-6400型土壤呼吸仪测定。AFP计算公式为

AFP=1-ρb/ρs-Ws

(1)

式中AFP——土壤充气孔隙度,%

ρb——土壤容重,取1.32 g/cm3

ρs——土粒密度,取1.75 g/cm3

Ws——土壤含水率,%

1.3 试验方法

相关试验参数在每日07:00—09:00之间进行测量,相关研究表明该时段测得的土壤呼吸、充气孔隙度等相关参数可以代表当日的平均值。人工测量时实时读取数据,如遇强降雨天气则推迟时间段进行测定。由于土壤含氧量的影响因素之一——土壤呼吸主要由作物根系呼吸及土壤微生物呼吸组成,因此,为了丰富数据来源,在玉米种植前9 d(2021年8月12—20日)进行裸地测量(此时,未进行玉米种植,土壤中不存在作物根系,微生物丰度也较低),玉米种植期间(2021年8月21日—11月12日)及玉米收获后10 d(2021年11月12—21日)进行裸地测量(此时,土壤中还存在一些玉米根茬及相关土壤微生物)。因此,本研究所测的7个试验地点共获得682组试验数据。其中6个试验地点土壤含氧量为训练样本,以1个试验地点数据作为验证,分别采用BP预测模型、LSTM预测模型、PSO-LSTM预测模型、GA-LSTM预测模型以及SSA-LSTM预测模型进行预测,全文采用Matlab进行编程与模型建立。

2 预测模型构建

2.1 LSTM神经网络模型构建

LSTM最初是传统递归神经网络的变体。在处理时间序列预测时具有较强的记忆能力,被广泛应用于时间序列中具有长时间时间间隔和时滞的预测场景,LSTM单元的基本结构如图3a所示。

图3 预测模型

LSTM在神经网络的基础上增加了更多的神经网络层,增加了记忆单元、输入门、输出门和遗忘门4个具有记忆功能的模块,有选择地让信息通过,每个门的功能各不相同。

遗忘门ft负责决定从记忆单元中丢弃哪些信息,更新公式为

ft=σ(wfxxt+wfhht-1+wfcCt-1+bf)

(2)

式中σ(·)——sigmoid的激活函数

xt——t时刻输入

ht-1——t-1时刻输出

Ct-1——t-1时刻候选向量

wfx、wfh、wfc——遗忘门权重系数

bf——遗忘门偏置

输入门it负责决定哪些信息可以保存在记忆单元中,更新公式为

it=σ(wixxi+wihht-1+wicCt-1+bi)

(3)

(4)

(5)

式中wix、wih、wic——输入门权重系数

bi——输入门偏置

wcx、wch——候选向量的权重系数

bo——候选向量偏置

tanh(·)——双曲正切激活函数

Ct——t时刻的侯选向量

输出门决定将输出哪些信息。除所需信息外,没有其他信息可以通过输出门。其表达式为

ot=σ(woxxt+wohht-1+wocCt-1+bo)

(6)

ht=ottanh(Ct)

(7)

式中ot——输出门

wox、woh、woc——输出门权重系数

ht——t时刻输出

2.2 SSA优化算法

SSA是根据麻雀觅食和反捕食行为的启发而提出的新型群体智能优化算法。SSA主要模拟了麻雀群体觅食的过程,每只麻雀都有3种可能的行为:发现者(搜索食物);加入者(跟随发现者觅食);侦察者(警戒侦查)。其中,发现者是麻雀中找到食物较早的个体,加入者则为其他个体,同时在麻雀种群中还有一定比例的个体进行侦察预警,它们的任务是在发现危险的情况下放弃食物,选择安全第一。

在模拟试验中,使用虚拟麻雀来寻找实物,n只麻雀种群可以表示为

(8)

式中d——待优化变量维数

所有麻雀适应度可以表示为

(9)

式中f(x)——适应度

SSA算法中所有的生产者、具有较好适应度的发现者在搜索过程中会优先获取食物,并负责为种群寻觅食物以及为发现者、加入者和侦察者根据各自的规则更新喂食,表达式为

(10)

式中t——当前迭代次数

rmax——最大迭代次数,常数

Xij——第i只麻雀在第j维中的位置信息,j=1,2,…,d

α——随机数,α∈(0,1]

ST——安全值,ST∈[0.5,1]

R2——警告值,当R2≤ST时,发现者可以执行搜索操作,而当R2≥ST,表示发现者种群发出预警,迅速飞离,R2∈(0,1]

Q——服从正态分布的随机数

L——L×d矩阵,矩阵中的每个元素均为1

对于加入者执行

(11)

式中Xbest——当前最优位置

Xworst——极差位置

β——步长控制参数

K——服从正态分布的随机数,K∈[-1,1],其均值为0,方差为1

fi——当前麻雀的个体适应度

fg、fw——当前全局最佳适应度和最差适应度

ε——避免分母为零的最小常数

监视发现者同时随时准备与之竞争,否则执行

(12)

式中Xp——发现者所占据的最佳位置

A——1×d矩阵,其中每个元素随机赋值为1或者-1,且A+=AT(AAY)-1

当i>n/2,表示适应度较低的第i个加入者没有得到食物。

预警者一般占种群数量的10%~20%,按式(12)更新站位。

SSA实现步骤如下:①初始麻雀数量并定义相关参数。②按照适应度进行顺序排列,找到当前最佳适应度个体和最差适应度个体。③利用 式(10)更新麻雀(发现者)在适应度方面的位置。④使 用式(12)更新晚期麻雀(scrounger)的适应度位置。⑤使用式(11)随机更新部分麻雀的位置。⑥获取当前更新位置。⑦如果新的位置比旧的位置好,则更新旧的位置。⑧重复步骤④~⑧。⑨输出最佳适应度和单个麻雀。

2.3 SSA-LSTM组合预测模型

为了提高预测精度和稳定性,本文提出了一种混合模型SSA-LSTM(图3b),利用SSA优化LSTM的初始隐层节点数和学习率。SSA-LSTM模型的主要步骤如下:

(1)模型初始化:初始化SSA的参数,包括麻雀种群位置、参数取值上下限及最大迭代次数。初始化LSTM结构,以LSTM模型的隐层节点数和学习率作为优化目标。

(2)目标函数建立:SSA的目标函数是未经训练的LSTM模型预测值与实际值相比的均方根误差(RMSE)。

(3)优化:根据目标函数的结果更新麻雀的位置,当满足初始设定的迭代次数时,LSTM的初始值达到最优。

(4)LSTM训练:将寻优后求得的最优参数代入LSTM模型,重新进行训练和预测,得到最终的预测模型。

2.4 模型性能评估

为了定量评估SSA-LSTM优化的神经网络预测模型的有效性和准确性,采用均方根误差(RMSE)、平均绝对误差(MAE)和平均误差(MAPE)进行模型评估。

3 结果与分析

3.1 土壤含氧量变化及影响因子相关性分析

由8个影响因子与SOC的Pearson相关系数可知,SOC与RF、Ws、Ts和AFP相关性极显著,相关系数均高于0.8,与Ta、SW相关性显著,与RH、Rs相关性较弱(图4)。

图4 SOC与影响因子的Pearson相关系数

考虑到大气温度与土壤温度对SOC的影响有一定的滞后效应,大气温度的变化对土壤温度产生直接影响,土壤温度的变化对土壤中的运动、土壤中各项生化活动产生影响,进而对SOC的变化产生影响,所以考虑滞后效应,修正后大气温度相关系数由0.43提升至0.51,土壤温度相关系数由-0.72提升至-0.81。

3.2 算法参数设置

通过前期试验,采用试凑法得到本次试验设置的BP预测模型中相应参数:最大迭代次数为500,隐层节点数目为25,训练精度为0.000 01,学习率设置为0.1;SSA算法优化LSTM网络的两个参数为隐藏神经元数和学习率,将SOC真实数据与预测数据的均方根误差作为适应度函数。同时设置麻雀种群数量为20,迭代次数为50,神经元个数m设置范围为[1,100],学习率为[0.000 1,0.01],经过SSA算法优化后隐藏神经元数和学习率的取值为30、0.008 5;设置GA算法的种群规模为20,交叉概率为0.3,变异概率为0.1,迭代次数为50;设置PSO算法中种群迭代次数为50,规模为20,参数c1和c2均为1.8。

3.3 模型预测对比分析

根据所测数据,构建基于BP预测模型、LSTM预测模型、GA-LSTM预测模型、PSO-LSTM预测模型、SSA-LSTM预测模型共5种预测模型,各模型对SOC预测结果如图5所示。由图5a、5b可以看出,BP预测模型及LSTM预测模型预测误差较大。PSO-LSTM预测模型在土壤含氧量9.6%~12.5%的范围内模型预测误差较大;GA-LSTM预测模型具有良好的收敛性,当土壤含氧量高于14.2%时,会出现较大的误差,且遗传算法步骤复杂,运算繁琐。SSA-LSTM预测模型具有良好的适应性和预测精度(图5e),实测值与预测值曲线拟合更接近,说明SSA-LSTM预测模型具有更好的拟合效果和泛化能力,体现了优化算法的相对优越性。

图5 不同神经网络模型的预测曲线

为了验证5种模型的预测性能,验证数据的实测值与预测值的相关系数曲线如图6所示。不同网络模型的拟合程度由高到低依次为SSA-LSTM预测模型、GA-LSTM预测模型、PSO-LSTM预测模型、LSTM预测模型、BP预测模型。SSA-LSTM预测模型回归拟合较好,相关系数R增加到0.979 69,决定系数R2增加到了0.959 79,与传统的BP预测模型、LSTM预测模型、GA-LSTM预测模型及PSO-LSTM预测模型相比,SSA-LSTM算法的R分别提高5.52%、2.30%、0.28%、1.25%,R2提高10.74%、4.55%、0.56%、2.48%。

图6 不同神经网络模型预测值与实测值间的相关性分析

对5种预测模型的预测结果进行量化,并利用模型评价指标对模型进行对比分析(表2)。与传统的BP预测模型、LSTM预测模型、GA-LSTM预测模型及PSO-LSTM预测模型相比,SSA-LSTM模型的RMSE分别降低58.64%、42.40%、20.04%、42.32%,MAPE分别降低59.85%、44.16%、4.02%、41.21%,MAE分别降低58.22%、43.70%、2.45%、38.26%。

表2 BP预测模型、LSTM预测模型和SSA-LSTM预测模型性能分析

3.4 模型预测误差分析

不同模型的预测误差分布如图7所示。以分布误差为0的分界线,向两端扩散增大,0轴表示真实值与预测值结果一致,越接近0,代表预测值与实测值的差值越小,模型的预测精度越高。从图7可以看出,与BP、LSTM预测模型相比,GA-LSTM、PSO-LSTM及SSA-LSTM预测模型的误差直方图误差接近0的个数更多且误差更小。其中,在组合预测模型里,本文所提出的SSA-LSTM模型在零区间分布的数量更多,误差更小,其他组合模型GA-LSTM、PSO-LSTM在零区间分布个数分别为48和38,误差较大。

图7 不同神经网络模型预测误差分布图

4 结论

(1)利用SSA搜索算法优化后的LSTM神经网络预测模型,采用网格搜索对LSTM神经网络模型的隐层节点数和学习率进行优化,克服了传统神经网络模型参数选择的盲目性和不确定性,提高了搜索精度、收敛速度和预测稳定性。

(2)通过对所选影响因子与SOC的Pearson相关系数分析可知,SOC与RF、Ws、Ts和AFP相关性极显著,相关系数均高于0.8,与大气温度、风速相关性显著,与大气湿度和土壤呼吸速率相关性较弱,其中,土壤呼吸是吸收O2排出CO2的过程,呼吸强度不仅受到土壤非生物因子的影响,更多地是受到生物因子的制约,主要与土壤中的根系、微生物数量有关,因此,土壤呼吸速率与SOC的相关性较弱。

(3)将BP预测模型、LSTM预测模型、GA-LSTM预测模型、PSO-LSTM预测模型和SSA-LSTM神经网络模型进行SOC预测分析,SSA-LSTM预测模型比其他神经网络模型表现出更好的预测性能。经过不断迭代训练,SSA-LSTM网络模型预测精度R2达到0.959 79,RMSE仅为0.491 7%,MAPE 为3.733 1%,MAE为0.362 0%,预测值与试验值之间的拟合程度高。研究结果为土壤氧气含量的预测提供一种新的思路和方法,为土壤通气增氧技术提供理论依据与基础。

猜你喜欢
适应度麻雀大气
改进的自适应复制、交叉和突变遗传算法
宏伟大气,气势与细腻兼备 Vivid Audio Giya G3 S2
如何“看清”大气中的二氧化碳
大气稳健的美式之风Polk Audio Signature系列
启发式搜索算法进行乐曲编辑的基本原理分析
燕子和麻雀
紧盯着窗外的麻雀
基于人群搜索算法的上市公司的Z—Score模型财务预警研究
大气的小“壮壮”