应用机器学习算法模型预测兴安落叶松地上生物量1)

2024-01-12 10:16沐钊颖张兹鹏张浩姜立春
东北林业大学学报 2024年3期
关键词:决策树方差生物量

沐钊颖 张兹鹏 张浩 姜立春

(东北林业大学,哈尔滨,150040)

森林生物量是森林生态系统生产与代谢过程中长期积累的结果,也是森林生态系统运作的能量基础和物质来源[1-3]。森林地上生物量作为森林生态系统碳循环的载体,不仅能够反映区域群落利用自然资源的潜在能力,也是衡量群落生产力的重要指标[4-6]。

目前,对于生物量测定的方法主要有直接法和间接法。直接法主要为实测法,该方法费时、费力,对生态环境破坏性较大;间接法主要为模型估测法,该方法省时省力,效率高[7-9]。模型法分为传统参数模型和非参数模型,传统参数模型主要为线性和非线性回归模型,非参数模型主要为机器学习算法模型。目前已经建立近2 000多个生物量模型,其中大部分为参数模型,非参数模型较少[10-11]。传统参数模型有一定的局限性,在应用时通常要满足模型的基本假设(独立性、等方差、正态分布等),而生物量数据通常难以满足这些假设,尤其是方差异质性,虽然在生物量模型构建过程中,通过异方差校正使模型满足假设前提,但模型在应用时通常还需要采用方差校正因子降低预测误差,使生物量模型的应用受到限制。

随着人工智能技术的不断发展,机器学习算法为森林生物量预测提供了新的手段。机器学习算法对输入数据的分布形式没有假设前提,适用性广泛,在生物量预测领域受到越来越广泛的关注[12-17]。王轶夫等[18]基于BP神经网络构建了马尾松生物量模型,发现其在精度上优于传统生物量模型;林卓等[19]基于BP神经网络和支持向量机构建了杉木人工林生物量模型,支持向量机的预测精度优于BP神经网络;Özçelik et al.[20]利用非线性回归模型和人工神经网络分别构建模型预测松树生物量,人工神经网络具有更高的预测精度;Wongchai et al.[21]采用多种机器学习算法与传统异速方程对泰国3种乔木生物量进行预测,预测结果显示,随机森林模型的预测精度最高。

兴安落叶松(Larixgmelinii)为东北林区主要三大针叶用材林树种之一[22],是该地区荒山造林和森林更新的主要树种,该树种对抵抗西伯利亚寒流和荒漠风沙的侵袭起到了重要作用。本文以小兴安岭地区的兴安落叶松为例,采用人工神经网络(ANN)、支持向量机(SVR)、梯度提升回归树(GBRT)和随机森林(RF),分别对兴安落叶松地上生物量进行预测,并对生物量模型的预测精度进行对比分析,为提高兴安落叶松地上生物量的预测精度提供技术支持。

1 研究方法

1.1 数据来源

本文的兴安落叶松数据采集地点位于小兴安岭(127°42′~130°14′E,46°28′~50°21′N)的翠兰、乌马河、带岭、铁力和五营林业局施业区共收集了201株样木。在林地伐倒样木,按1 m区分段进行树干解析,分段取样,分别测定各区分段的树干鲜质量;将树冠分为3层,每个冠层选取3~5个标准枝,并分层称取活枝鲜质量和叶鲜质量,每株样木各区分层的枝叶都分别取样,将采集的所有样品带回实验室在105 ℃恒温干燥后,称量样品的干质量。根据样品干质量和鲜质量分别计算样木各部分的干质量,最终汇总单木地上生物量。将取得样木数据,按照75%和25%的比例分成训练样本和测试样本(见表1)。

表1 兴安落叶松样本统计量

1.2 数据归一化处理与反归一化处理

在机器学习算法建模时,为消除不同量级变量对于建模的影响,需要对数据进行归一化处理,使各变量的值均统一介于[0,1]。经过模型预测得到泛化结果,通过数据反归一化处理,还原为原始数据级与真实值对比和评价。归一化公式如下:

式中:Xi为归一化后的值,X为样本真实值,Xmax为样本最大值,Xmin为样本最小值。

1.3 兴安落叶松地上生物量预测模型

1.3.1 传统生物量模型

林木胸径和树高与地上生物量有显著的相关性,生物量一般会随着林木胸径和树高的增大而增加[23-25]。本文引入了胸径和树高两个自变量,并采用了生物量建模中常用的二元生物量模型进行模型构建,模型形式如下:W=aDbHC。式中:W为地上生物量;D为胸径;H为树高;a、b、c为参数。

1.3.2 人工神经网络模型

人工神经网络是由大量具有自适应的神经元互相连接形成的神经结构,主要由输入层、隐藏层和输出层组成[12]。人工神经网络的主要工作原理为输入信号先向前传递到隐藏节点,由总误差引起的权值修正向第一隐含层(即最接近输入层的隐含层)进行反向传播。前向传递时,如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值系数和阈值,从而使预测输出值不断逼近期望输出值。

1.3.3 支持向量机回归模型

支持向量机的本质是以最优方式划分数据超平面。以决策超平面将数据分成两类,属于线性分类器。支持向量回归对于线性不可分的数据引入核函数,将原样本从原始空间映射到一个更加高维的特征空间,使得样本在这个空间实现线性可分。使用R软件中的e1071包进行支持向量回归模型的拟合和预测。在模型拟合过程中,通过核函数的选择和惩罚系数(C)的调节,不断提高模型的拟合效果。核函数所需搜寻调优的参数有惩罚参数(C)和核参数(g),采用网格搜寻法搜寻最优参数。本文拟合模型使用的核函数有:径向核、线性核、多项式核、S形核。

1.3.4 随机森林模型

随机森林是通过集成学习的装袋思想将多棵决策树集成的一种算法。随机森林通过多次自主采样法抽取多个随机样本,通过这些样本分别建立相对应的决策树,从而构成随机森林模型。本文使用R软件中的随机森林(RF)包进行随机森林模型的拟合与预测。模型拟合过程中影响的3个重要参数为:决策树的数目(n)即使用自主采样法重抽样的次数、树节点随机抽取的变量个数(m)即使用到输入变量的个数、决策树节点最大个数。本研究中主要对决策树的数目(n)、树节点随机抽取的变量个数(m)和决策树节点最大个数进行寻优,其他参数均使用默认值。

1.3.5 梯度提升回归树模型

梯度提升回归树的本质是由许多决策树组成的集成模型。梯度提升回归树通过构建M个弱分类器,经过多次迭代运算最终组合而成一个强分类器进行预测。它在原有的模型基础上进行迭代改进,使得下一次拟合构建的模型比上一次的模型拥有更小的误差,以在残差减小的梯度方向上建立新的组合模型。采用R语言中的gbm包进行模型的拟合与预测。其中需要调整的参数有学习率(η)、交互深度(d)、终节点最小规模和子抽样比例,对模型最优参数组合采用网格搜索的方式进行搜寻。

1.4 异方差校正

传统生物量模型易产生异方差现象,即输出结果误差会随着预测值的增大而增大。本文采用幂函数、指数函数和常数加幂函数等3种加权回归法,消除异方差对于传统生物量模型参数估计的影响。通过比较赤池信息准则(AIC)和贝叶斯信息准则(BIC)数值选择最优方差函数。

指数函数——g(ui,θ)=exp(θui);

幂函数——g(ui,θ)=|ui|θ;

常数加幂函数——g(ui,θ)=θ1+|ui|θ2。

式中:ui为方差函数变量;θ、θ1和θ2为参数。

1.5 模型拟合与检验评价指标

模型评价指标采用确定系数(R2),均方根误差(RMSE),平均绝对误差(MAE),相对误差绝对值(MPB)和赤池信息准则(AIC),使用这几个指标来综合评价模型的拟合和预测效果。本文也选用Z检验来评价模型的无偏估计能力,以判断模型泛化结果与真实值是否存在显著差异。上述指标的计算公式如下:

2 结果与分析

2.1 传统生物量模型拟合及异方差校正

由表2可知,采用指数函数、幂函数、常数加幂函数进行异方差校正。选取生物量实际值(W)、胸径(D)和树高(H)作为方差函数的变量对传统生物量模型校正。当幂函数变量为生物量实际值时,赤池信息准则(AIC)和贝叶斯信息准则(BIC)的值最小,因而选用幂函数进行生物量模型校正。

由图1可知,残差随着预测值的增大而呈现喇叭状分布,说明传统生物量模型产生了异方差现象;校正后模型残差不再呈喇叭状扩散分布,而是均匀的随机分布,说明该方差函数有效的消除了模型的异方差现象。

最终可得模型参数为a=0.035 59,b=1.853 59,c=0.954 47,传统生物量模型表达式如下:W=0.035 59×D1.853 59×H0.954 47。

图1 传统生物量模型残差图

表2 传统生物量模型误差方差函数结果

2.2 人工神经网络模型预测结果

2.3 支持向量机回归模型预测结果

核函数的选择是支持向量机回归模型构建的核心。拟合支持向量机回归模型主要为两个步骤:搜索核函数的最优参数;使用最优参数拟合模型。通过网格搜索法搜索径向核的最优参数,惩罚系数(C)值的取值范围设置为(0,1 000),核函数(g)值的取值范围设置为(0,1)。由表3可知,当核函数为径向核时模型的拟合精度最高。经搜索确定核函数的最优参数C值为101、g值为0.03时,模型的拟合精度最高,径向核的确定系数(R2)达到0.960 1。因而支持向量机模型的核函数选择径向核,C值设置为101、g值设置为0.03进行模型构建。

图2 不同神经元的人工神经网络模型精度对比

2.4 随机森林模型预测结果

由图3可知,均方误差随着决策树数量的增加而变化,当决策树的数量达到1 500时,其均方误差已经基本趋于稳定,即使继续增大决策树的数量,误差也不会有太大变化,故设置随机森林的决策树数量为1 500。树节点随机抽取的变量个数的数量与模型输入变量的数量有关,由于该模型的输入变量为2个,所以树节点随机抽取的变量个数(m)的取值为[1,2],由试错法可知当m=1时,模型拟合精度最高且误差达到最小。随机森林是以决策树为基础的模型,决策树的最大节点数对其拟合精度影响较大。随机森林不同节点数的决策树数量不同,随机森林节点数范围为(39,56),将决策树节点最大个数采用依次试错法,当决策树节点最大个数为50时模型拟合精度最高。故将模型的决策树的数量设置为1 500,变量个数(m)设置为1,决策树节点最大个数设置为50时,进行模型的构建。

表3 核函数拟合结果

图3 不同决策树数量时随机森林的均方误差曲线

2.5 梯度提升回归树预测结果

梯度提升回归树是通过多个弱训练器进行多次迭代训练最后组成一个强训练器。迭代次数即是决策树数量(M),因而决策树的数量对于模型拟合结果影响较大。对于梯度提升回归决策树的初始数量默认设置为600棵来进行搜寻。

由图4可知,均方误差随着决策树数量的增加而不断下降,当决策树数量为471时,其均方误差达到最小。可得模型最优迭代次数为471,与最初所设的数量600棵十分接近。模型利用网格搜索法寻优,将学习率的搜索范围设置为[0.01,1.00],交互深度范围设置为[2,6],终节点最小规模范围设置为[5,10],子抽样比例范围设置为[0.5,1.0]。最终搜索最优参数组合为学习率为0.01,交互深度为2,终节点最小规模为5,子抽样比例为0.5时,模型的拟合效果最好。

图4 不同决策树数量时的GBRT模型的误差曲线

2.6 模型评价与检验

由表4可知,基于训练数据,机器学习算法的拟合效果均优于传统生物量模型。根据各模型的拟合精度由高到低顺序为:随机森林、梯度提升回归树、人工神经网络、支持向量回归、传统生物量模型。相对于传统生物量模型,随机森林的均方根误差、平均绝对误差、相对误差绝对值、赤池信息准则(AIC)分别降低了44.47%、42.81%、42.80%和18.17%。根据测试数据,得出了与训练数据基本一致的结果,即机器学习算法的预测精度均高于传统生物量模型,其中随机森林的预测精度最高。

表4 生物量的模型拟合与预测结果评价

由图5可知,随机森林的预测效果最好,基本与45度线重合。

由表5可知,评价模型的无偏估计能力,使用置信度为95%的Z检验,验证训练和测试数据的泛化结果与真实值的分布,各模型的P值均大于0.05,故接受零假设(H0),即各模型预测值与真实值之间无显著差异。

图5 5种模型预测和实际生物量的散点图

表5 生物量模型的Z检验结果

3 讨论与结论

以兴安落叶松为例,构建了传统的地上生物量模型,并进行了异方差校正。基于相同的变量构建了4种机器学习模型,结果表明,4种机器学习算法可以更好的预测兴安落叶松的地上生物量。各模型根据测试数据的预测精度由高到低的排序为:随机森林、人工神经网络、梯度提升回归树、支持向量回归、传统生物量模型。其中,随机森林模型的预测精度最高,相比于传统生物量模型,随机森林模型的均方根误差降低了10.95%,平均绝对误差降低了10.34%,相对误差绝对值降低了10.34%。

传统生物量模型的结构简单,但通常要满足假设前提,如独立、正态和方差异质性等。随着计算机技术的发展,尤其是机器学习算法的出现解决了传统模型不能解决的问题。Ye et al.[26]使用SVR、ANN、RF 3种机器学习算法对刺槐人工林的地上生物量进行估算,表明RF模型为估算刺槐人工林地上生物量的最佳模型;Wongchai et al.[21]对三种速生乔木进行建模,发现随机森林相对于其他机器学习算法拥有更高的预测精度。

本研究采用的机器学习模型与传统参数模型都是采用相同变量构建。Li et al.[27]认为变量选择是机器学习算法非常重要的部分,变量的选择显著影响模型的预测精度。一些算法的精度虽然高于传统生物量模型但并没有大幅度提高,导致这些结果的原因是模型拟合过程中只输入了基本的单木测树因子,落叶松的地上生物量与林分因子、立地条件、气候条件等也有着紧密的相关性。随着数据的积累,未来可以将林分和环境变量因子引入模型,选择有效且相关的变量作为机器学习模型的输入变量可以被认为是进一步提高机器学习算法模型预测能力的手段。

猜你喜欢
决策树方差生物量
方差怎么算
概率与统计(2)——离散型随机变量的期望与方差
轮牧能有效促进高寒草地生物量和稳定性
一种针对不均衡数据集的SVM决策树算法
计算方差用哪个公式
决策树和随机森林方法在管理决策中的应用
方差生活秀
基于决策树的出租车乘客出行目的识别
生物量高的富锌酵母的开发应用
基于肺癌CT的决策树模型在肺癌诊断中的应用