非参数模型在河湖富营养化研究领域应用进展

2021-08-23 10:24豆荆辉宋进喜
环境科学研究 2021年8期
关键词:富营养化河湖变量

豆荆辉, 夏 瑞, 张 凯, 邹 磊, 宋进喜, 塔 拉

1.西北大学城市与环境学院, 陕西省地表系统与环境承载力重点实验室, 陕西 西安 710127 2.中国环境科学研究院水生态保护修复研究室, 北京 100012 3.中国科学院地理科学与资源研究所, 陆地水循环及地表过程院重点实验室, 北京 100101

水体富营养化已成为世界范围内水环境保护的主要问题之一[1-4]. 近年来,尽管我国地表水环境质量总体有所改善,但水生态退化形势仍十分严峻,《2019年中国环境状况公报》[5]指出,进行监测的107个重要湖泊(水库)近1/3为富营养状态. 太湖、巢湖和滇池藻华频发现象仍未根本改善,大型通江湖泊——鄱阳湖部分湖区藻华暴发有显著增加趋势[6],作为我国典型河流藻华案例,长江最大支流——汉江每年春冬季藻华暴发时有发生,具有持续时间延长且提前的趋势[7],我国河湖数量众多,分布广泛,富营养化已成为严重威胁区域用水安全与水生态安全的关键,精准识别河湖富营养化问题成因与演变规律是新时期国家水生态环境管理的重要科技需求.

水生态模拟涉及多学科交叉与复杂系统问题,随着气候环境变化与人类活动影响的不断加剧,河湖水质、水生生物量与水生态系统营养结构也不断发生变化[8],变化环境下河湖水生态退化过程和演变机制不清[9-10],传统生态机理模型结构相对固定,生态数据的强非线性以及变量间的高阶相互作用使其参数确定受限. 河湖环境特征参数的区域异质性也制约着机理模型的普适性. 随着计算机技术的快速发展,非参数模型以其直接依托数据构建模型的优势,规避了机理模型的局限性[11],广泛应用于水生态问题的诊断、识别与模拟预测. 目前,针对河湖富营养化诊断和预测的非参数模型方法尚缺乏系统的梳理和分类,使得不同方法存在较大不确定性和适用性等问题,导致河湖富营养化诊断(特征识别与成因分析)和预测预警(未来变化趋势)存在误差,在实际应用中缺乏科学的选择.

鉴于此,该研究面向国家“十四五”期间“美丽河湖”建设重大需求,全面分析总结国内外近20年来富营养化非参数模型方法的研究进展,通过Citespace开展基于WoS核心库与CNKI数据库的相关文献关键词共现分析,阐明不同模型在富营养化问题诊断和预测领域的特异性和适用性,并对今后一段时期内水生态模拟预测的发展趋势提出展望,旨在为国家全面推进水生态质量管控提供科学参考和借鉴.

1 非参数模型在水体富营养化应用文献检索分析

基于Web of Science(WoS)数据库和CNKI数据库以“eutrophication and non-parametric model”(富营养化与非参数模型)为主题,搜索与筛选出2000—2020年7月相关英文文献1 108篇、中文文献1 367篇. 由图1可见,非参数模型在水体富营养化研究应用中呈指数增长趋势,是近年来水生态学科研究的热点.

图1 基于WoS核心库搜索“Eutrophication and Non-parametric Model”为主题的文献出版数量分布Fig.1 Publications for each individual year based on WoS core collection base search on term ‘Eutrophication and Non-parametric Model’

基于筛选数据,通过文献分析可视化软件Citespace对各非参数模型与数据分析方法在水体富营养化研究中的应用进行关键词共现分析并筛选相关关键词,绘制关键词共现关系时区图(见图2)可以发现,基于最大频次共现词“富营养化”(eutrophication)的相关研究指标关键词由“叶绿素a”(chlorophyll a)、“浮游植物”(phytoplankton)、“氮”(nitrogen)、“磷”(phosphorus)等单一指标向“营养状态指数”(trophic state index)等综合性指标过渡;研究内容关键词有“影响因子”(impact)、“响应关系”(response)、“预测预报”(prediction)、“群落结构”(community structure)、“生态系统”(ecosystem)等. 基于WoS数据库的相关文献对气候变化与水体富营养化方面的研究自2011年开始成为一大研究热点;河湖富营养化研究中最常用及普遍的是“人工神经网络”(artificial neural network)、“BP神经网络”、“支持向量机”(SVM)等成熟的数据分析方法,随着时间的推移,“结构方程模型”(structural equation model, SEM)、“贝叶斯网络”(Bayesian network)、“随机森林”(random forest)等“机器学习”(machine learning)方法、“时间序列分析”(time series analysis)、“不确定性”(uncertainty)分析也逐渐被引进水生态研究领域.

图2 非参数模型在水体富营养领域关键词共线图谱Fig.2 Keywords co-occurring spectral feature of the non-parametric models in the water eutrophication

2 非参数模型在河湖富营养化研究应用

非参数模型不对模型结构做出假设、不依赖变量分布[12],在建模过程中可估计变量间不断变化且机理尚不明确的关系,具有极强的灵活性,大幅提高了在有限数据中挖掘信息的效率,非常适用于复杂的水生态研究中. 通过开展系统调研,重点阐述河湖富营养化诊断与预测研究中经典与前沿的非参数模型的基本原理与应用进展,主要包括结构方程模型、贝叶斯网络、随机森林、梯度推进机、支持向量机、人工神经网络、广义相加模型及差分自回归移动平均模型.

2.1 结构方程模型(SEM)

结构方程模型(structural equation model, SEM)是一种综合因子分析与路径分析于一体的多元统计方法,模型假定一组潜变量间存在因果关系,潜变量(无法直接观测变量)为某几个显变量(可直接观测)的线性表达. 通过构建协方差矩阵检验模型中包含的显变量、潜变量、干扰或误差变量间的关系,进而获得自变量对因变量影响的直接效果、间接效果或总效果,同时从统计上证实或证伪模型假设潜变量间结构关系的合理性. 详细结构方程与建模流程参考文献[13-15]. SEM既可分析单一变量对整体结构的贡献,也能分析变量之间的作用关系. 凭借强大的多因子分析能力与因果关系的解释能力,SEM在水体富营养化诊断研究应用中取得了重要进展,除物理因子、营养物、浮游植物等常见水体富营养化影响因素外[15-16],还有学者引入了水体与沉积物间的吸收吸附行为[17]、浮游动物[18]、沉水植物[19]以及充分考虑地理位置及区域异质性[20-21]来定量分析河湖生态环境中各驱动因子与富营养指标之间的响应关系与影响程度,进一步为河湖富营养化的精准预测提供参考. SEM允许自变量和因变量存在测量误差,为水生态过程(如垂直混合、低水位营养盐的侵入、食草动物)对富营养化指标的作用评估提供了一种简便方法[22].

2.2 贝叶斯网络(BN)

贝叶斯网络(Bayesian network, BN)以概率统计为基础,可明确地表示变量间的因果假设[23]. BN的结构为一个有向无环图(见图3[24]),其中每个节点代表一个随机变量,结构上排列方向由父节点指向子节点(因指向果),每个节点对应一个概率表,各变量发生概率由其父节点决定,即P〔A|parents(A)〕,没有父节点的变量由边际概率分布描述,BN可通过学习网络结构与参数进行祖先节点的推理与后代节点的预测功能,即可实现富营养化的诊断与预测[25].

图3 基于节点A的贝叶斯网络节点关系示意[24]Fig.3 Node relation diagram of Bayesian network based on node A[24]

该模型允许各节点变量在时空尺度上具有不一致性,其灵活多样的模型形式非常适合分析复杂的生态系统[26],被广泛应用于河口[24,27-28]、沿海湖泊[29]及内陆河湖[30]生态建模,用来评估土地利用与气候变化[31-34]、水情要素[35]、外源营养负荷[30]、营养梯度变化[36]等不同环境因素与生物指标(如浮游植物[10]、浮游动物[19])之间的关系,以及建立综合生态、社会与经济价值的水生态综合评估模型[37];

此外,BN还可同时考虑时间上的季节性差异与空间上的地区差异进行水生态建模[38],从而准确进行河湖富营养化风险预测[39]. BN以其出色的整合专家知识的能力、关系结构自动学习功能以及在数据值存在缺失情况下的精准预测能力,成为一种处理大规模异构数据、推断因果关系以及捕捉变量之间非线性、组合、随机关系的强大工具. 然而,由于BN是一种概率图模型,需要将各输入变量离散化,同时也无法输出连续的预测变量.

2.3 人工神经网络(ANN)

人工神经网络(artificial neural network, ANN)是水体富营养化预测研究中使用频率非常高的模型,其以仿照人体大脑神经元运行为建模原理(见图4),即在输入层导入相关环境变量,各变量在隐层中完成强非线性关系映射,并通过自选择或自适应得到最优结果并实现预测功能[40],在输出层导出预测值. 这种高度灵活的函数拟合能力可以表征构成生态系统特征的各变量间的非线性关系[41],使ANN能较好地完成藻类水华过程的建模[42].

图4 典型人工神经网络示意Fig.4 Schematic diagram of typical artificial neural network

自1980s开始,人工神经网络发展为多种形式. 不同类型的神经网络主要区别在于网络结构和用于确定输入神经网络(训练)权重和功能的方法[43],其中由误差反向传播算法训练的一种多层前馈神经网络(BP神经网络)[44]最为常用,BP神经网络已被广泛应用于浅水湖泊[45]、高原湖泊[46]、河流[47]水华暴发时间与藻类密度预测研究中. 但由于河湖生态系统的水动力条件、水文气象及藻型生态系统的复杂性,传统的神经网络可能会出现预测精度不高的问题[45]. 各种优化算法与神经网络耦合模型被应用于河湖富营养化预测研究中. 例如:与遗传算法耦合(GA-ANN)可优化初始权值和阈值,克服优化过程受初始点选择的弊端[48],确定网络结构中的有效节点数和最优激活函数[49],预测更高效快速[50];耦合小波分析的神经网络模型(WA-ANN)可对数据进行预处理,降低噪声管理非平稳数据[51];广义回归神经网络(GRNN)[52]可提高收敛速度与预测精度,不易陷入局部最小值;非线性自回归神经网络(NARX)[53]可在对叶绿素a浓度预测的同时考虑时间的相关性,非常适合预测时间序列,并具有比其他动态网络更快的训练速度;将小波域阈值去噪、小波均值融合和长短期记忆相结合建立的长期预测模型[54]可降低误差,提升泛化能力;贝叶斯正则化反向传播神经网络模型(BRBPNN)[55]通过自动正则化参数选择获得后验分布的最优网络结构,同时具有更好的泛化能力与避免过拟合能力.

2.4 支持向量机(SVM)

支持向量机(support vector machines, SVM)是一种基于统计学习理论的机器学习方法,在处理小样本数据和非线性问题中展现出了独有优势. 支持向量机回归是用于解决回归问题的支持向量机,通过引入不敏感损失函数,将数据投影到高维特征空间中并形成优化的超平面来表示自变量(如环境因子)和因变量(如藻类密度)之间的非线性关系[56],对于输入样本集(x1,x2,…,xn),支持向量回归函数如下:

(1)

式中:K(xi,x)为核函数,使βi*-βi≠0对应的样本为SVR的支持向量,b为偏置项. 支持向量机已成为一种富营养化预测的经典方法,被广泛应用于叶绿素a[57-59]、浮游植物水平[60]及微囊藻毒素[61]等的水体富营养化指标预测研究中. 由于SVM存在预测精度与泛化能力受限于核函数的选择、不适合训练大数据量样本等不足,各学者致力于将不同优化算法与支持向量机的耦合模型应用于水体富营养预测. 例如:Su等[62]利用遗传算法与支持向量机建立耦合模型(GA-SVM)预测生态指标,可达到简化模型的效果并提升稳健性与预测能力;Garcia-Nieto等[63]提出了一种基于小波核支持向量(WA-SVM)的优化方法,并将其与差分演化方法相结合对水体富营养化进行预测;粒子群优化技术可迅速优化超参数至最优解[64],桑文璐等[65]将基于粒子群算法的最小二乘支持向量机(PSO-LSSVM)用于预测香溪河叶绿素a浓度,与WA-ANN比较,预测精度更高且速度快,对高维数据能够高效进行全局性优化. 此外,网络搜索法以其能够快速找到最佳回归参数的优势被用于SVR预测优化过程中[66].

2.5 随机森林(RF)

随机森林(random forest, RF)是一种由多组平行决策树组成的集成算法,在不增加样本数量的情况下通过随机节点分裂进行运算,实现特征重要性评估并具有预测功能[67],其最终预测结果为各决策树回归结果的算术平均值. 在观测变量数量较少的情况下,RF仍可出色完成多变量预测,成为生态研究领域参数统计分析的强大代替方法[68]. 作为高维数据有效的特征选择工具,RF通过bagging方法[69]所获得的OOB数据使其具有识别、量化特征变量重要性的功能,可应用于河湖富营养化诊断分析中,筛选TN、TP、水温、气象因子等环境因子[70-71]及鱼类等高营养级水生生物[72]对藻类生长影响的主导因素,以及湖泊反硝化率与富营养环境因素之间的关系[73],其回归功能也被应用于水华预测预警研究中[74]. RF训练速度快、泛化能力强,能够在数据缺失情况下保持较高的准确率,可以给出变量重要性估计,具有对复杂交互作用的预测变量及高维数据的建模能力并灵活执行多种统计数据分析[71],但其在噪音较大时可能发生过拟合,超参数调优可提高RF的计算精度,常见的超参数优化方法有网络搜索、随机搜索及贝叶斯优化等.

2.6 梯度推进机(GBM)

梯度推进机(gradient boosting machines, GBM)属于机器学习中决策树集成模型的一种. GBM有很多算法,常见的梯度推进机有GDBT (gradient boosting decision tree)[75]、XGboost[76]、LightGBM[77],其实现方法不同,但理论类似,即在梯度增强过程中连续地拟合成为新的模型,每棵决策树通过拟合前一棵决策树的残差来实现减小误差(见图5),以提供对响应变量更准确的估计[13].

图5 GBM算法示意Fig.5 Diagram of GBM algorithm

GBM强大的处理缺失数据与拟合复杂非线性关系的能力可被用于藻华诊断与预测研究中. Wang等[78]采用GBM解释了湖泊生态指标与非生物因子之间的非线性关系;Xia等[79]通过构建基于GBM的河流水华模型发现,汉江和长江前旬水位比当旬水环境要素更能有效模拟预测藻华的暴发,揭示了我国大型河流水华发生的关键驱动因子及其时滞影响效应;Nieto等[80]等运用GBM的回归功能预测水体氰毒素浓度,结果表明,GBM在高度非线性问题中表现出了良好的预测能力;Romeiko等[81]通过比较5种监督学习方法,探究农业对水体富营养化与气候的影响,其中梯度推进回归树模型的预测精度最高;Hu等[82]运用GBM实现了对月尺度数据进行富营养化的精准预测. GBM模型能够保持较高的预测精度与运算速度,但在抗干扰方面有所欠缺,尽管能够控制迭代次数,仍有过拟合风险,需要开展大量前期数据分析和优化.

2.7 广义相加模型(GAM)

广义相加模型(generalized additive models, GAM)是广义线性模型的扩展,通过建立非参数模型分析变量间的结构关系,同时从复杂的响应机制中总结规律,其结构表示为一组解释变量的光滑函数相加,计算公式:

(2)

式中:g(μ)为联系函数;b0为常数截距项;fi(xi)为用来描述g(μ)的第i个解释变量关系的非参数函数,可通过局部加权回归平滑或样条平滑得到. GAM可以同时分析某一变量与多个影响因子间的非线性响应关系[83],因而更适用于生态学研究,特别是对监测数据进行分析. 此外,GAM提供回归线的置信区间可用于生态指标阈值划定[71],在甄别关键影响因子的同时能够直观地检查响应关系的重要性[84]. 近年来,GAM在河湖富营养化因子分析及预测研究中已经展开应用,如分析气象要素[85-86]、营养盐[87-88]、水温梯度变化[89]、不同时间尺度[90]积累负荷与外部负荷[91]等环境因子,水利工程建设[92]及人类活动因素[93]对浮游植物生长的影响,叶绿素a是常用的表征指标[94];此外,还有应用于细菌丰度[95-96]、微囊藻生物量[97-98]与环境因子间非线性响应关系的研究,以及沉水植物[99-100]、鱼类群落[101]等重要水生生物对水体富营养变化的响应等.

2.8 差分自回归移动平均模型(ARIMA)

差分自回归移动平均模型(auto regressive integrated moving average model, ARIMA)属于时间序列预测方法中最常用的一种经典模型,该模型认为待预测的时间序列为随机序列,并通过自回归过程与移动平均过程根据待预测时间序列的历史数据来预测未来值,ARIMA以其简便、快捷以及与事物发展规律紧密联系的优势成为河湖富营养化预测方法的重要组成部分,被应用于不同环境因素的变化趋势分析[102]、氮磷浓度预测[103]与河湖叶绿素a[104]、悬浮物浓度[105]、藻密度[106]、富营养指数[107]等水生态指标预测中. 此外,在富营养化诊断研究中,ARIMA还被用来判别非生物环境变量与生物变量是否具有自相关性[108]. 针对其预测时间越长精度越低的缺点,Elhag等[109]通过季节性扩展ARIMA模型(S-ARIMA)预测叶绿素a浓度等水质参数并维持了前3个月的稳健预测. Wang等[107]引入了霍尔特-温斯特模型(Holt-Winters seasonal model)与自校正,使预测精度高达97.5%. ARIMA模型还可以与BPNN耦合[110]进行预测,这种混合方法利用前者的线性捕捉能力与神经网络预测变量的非线性和随机变化规律优势,可对ARIMA预测误差进行修正并得到最终预测结果,为河湖富营养化预测提供了新思路.

3 非参数模型典例对比分析

不同模型对数据的要求及其适用性与局限性各不相同,通过对上述非参数模型特点及其在河湖富营养化主要应用进行梳理总结,并根据其建模原理与特征将具有相似之处的模型进行归纳并展开对比分析,结果见表1.

表1 非参数模型适用性比较

3.1 因果关系模型典例对比分析

SEM和BN都是系统分析变量间因果关系的模型,而不是简单地分析其相关性(如回归分析法、相关分析法、主成分分析法等传统统计学分析方法),SEM最大的优势在于可在间接测量潜变量的同时,估计因子间的响应结构与关系. 在水生态建模过程中,一些无法直接测量的指标(如人类活动、气候变化等),则可通过结构方程模型构建潜变量来定量分析这些影响因子对富营养化的作用,但无法实现预测,且只能分析线性关系. BN通过对各变量进行结构学习与参数学习从而实现因果关系的推理,不仅可以对富营养化水体进行诊断,同时具备预测功能. 此外,由于BN是一种基于概率论的网络模型,需要对数据进行离散化,这使得BN对于非线性与复杂性的问题非常有效,而对变量间的线性关系失去统计学意义,因此数据离散化的方式成为保证模型准确性的关键[111]. SEM与BN常被结合使用来分析河湖富营养化问题[30],前者可对网络结构进行进一步确定,后者可进行预测分析.

3.2 非线性拟合模型典例对比分析

ANN和SVM都是反映河湖生态指标和环境因素之间非线性关系的有效方法. ANN强大的映射非线性函数的性能被广泛应用于预测藻华,其局限性在于,只考虑了训练误差的经验风险最小化,从而容易陷入局部最小值及过拟合现象,导致泛化能力弱. ANN更适合应用于大样本分析,恰当地结合先验知识,即可得到较好的预测结果;然而,不具备解释性限制了其在富营养化诊断研究中的应用. SVM结构风险最小化的特点,在回归过程中无论输入维数如何,都能保持稳定的性能,进而正确地确定全局最优值并保持较强的泛化能力. 不同于ANN基于传统统计学样本无穷大的假设,SVM严格根据数学理论分析,基于有限样本确定最优解,选择合适的核函数,即可在小样本数据的处理和预测中显现出极大的优势,在藻华预测研究中二者常被用来做比较,SVM往往预测精度更优[65,112-113].

3.3 集成模型典例对比分析

RF与GBM都是以决策树为基础的集成非参数模型,RF可减少模型的方差,GBM则会减少模型的偏差. 二者的根本区别在于:RF运行bagging算法,通常只需要设置一个超参数即可,并可以产生OOB数据进行特征重要性估计,RF的最终预测结果是并行构建多个决策树的平均值,这使其具有更强的抗干扰性,不容易出现过拟合现象;GBM则运行boosting算法,顺次进行对前一棵决策树的残差拟合,结果为所有决策树的加权和,需要设置的参数较RF更多,设置不当可能出现过拟合现象,但恰当地调整参数则会得到比RF精度更高的预测结果. 在某种意义上讲,RF是一棵比GBM更加灵活的集成树,但GBM对异常值更敏感,在一般情况下,经过良好训练的梯度推进机性能优于随机森林. 在GBM的实现算法中,相对于传统GDBT,XGboost增添了正则项来控制模型过于复杂,可以防止过拟合. LightGBM则采用leaf-wise生长策略,这虽然会比大部分GDBT使用的level-wise更容易过拟合,但通过深度限制可以避免这一劣势;此外,LightGBM采用了直方图算法寻找最优的分割点,数据分割的复杂度更低,极大地提高了运算速度.

3.4 时间序列预测与回归预测模型典例对比分析

AIRIMA模型与GAM分别是在富营养化预测研究应用中时间序列预测方法与回归预测方法的经典模型,其中GAM应用更为广泛,它克服了logistic回归因容易引发维度灾难而无法同时处理更多解释变量的短板,在众多非线性回归预测方法中展露出了良好的性能,同时,它不需要假设分布并具有可解释性. GAM的局限性在于,它不可以像贝叶斯网络、结构方程模型一样定量分析解释变量之间的关系,因此在运用GAM进行富营养化预测时,应注意各解释变量间相互独立,较多研究采用主成分分析法提取独立变量;另外,该模型不能系统分析多解释变量与多响应变量间的复杂网络. ARIMA相较于其他预测模型的最大优点在于,它不需要借助任何外生变量即可进行自回归预测,当数据种类单一时,仍然可以运行出预测结果,但是当数据序列不平稳时,则会影响其预测精度,且只能捕捉线性关系. 生态数据往往是非平稳的,因此在使用ARIMA模型时,需要对数据序列进行差分处理转化为平稳序列进行预测. ARIMA模型在较短预测时间内可保持较高的预测精度,随着预测时间的延长,模型的方差逐渐增大将导致预测精度降低,因而多用于短期预测.

4 结论与展望

a) 进入21世纪以来,非参数模型在河湖富营养化研究中的应用呈指数增长趋势,除ANN、SVM等较为成熟的方法在研究中大量应用外,BN、RF、GBM和GAM等模型也在河湖富营养化诊断和预测方面表现出了较好的适用能力,非参数模型已经成为开展水生态大数据分析诊断和预测管控的关键技术手段.

b) SEM、BN、RF、GBM和GAM模型适用于河湖富营养化问题的诊断和驱动要素识别,BN、ANN、SVM、RF、GBM、GAM和ARIMA可实现水生态环境因子非线性拟合与预测功能,上述模型有待今后进一步在我国不同区域开展水生态模拟预测研究的应用.

c) 从研究内容来看,非参数模型对河湖富营养化过程建模逐步开始探究空间上的土地利用与气候变化、环境外部负荷、底泥吸收吸附等环境因子的影响效应及不同尺度的时间变化,以及关注强人类活动干扰下的河流水生态退化风险,进一步揭示河湖生态演变机理.

d) 建议建立实时水生态数据监测技术与共享平台. 重点围绕“监测评价—模拟调控—修复示范”为主线,突破河流eDNA监测、本土化指标构建、水生态数值模拟预警、水系统调控、生态修复等关键技术,充分发挥非参数模型挖掘数据信息的能力,提高水生态数据维度与质量.

e) 国家亟需前瞻性、系统性的数值模型关键技术支撑. 结合机理知识,开展生态模型与非参数模型的耦合求解与优化算法研究,引入深度学习等更前沿的数据分析方法用于水生态领域中,重点实现对河湖水生态健康的科学调控和修复. 精准识别导致河湖富营养化和水生态健康退化的环境压力阈值,克服藻类生长暴发的时滞问题、开展变化环境下的水生态退化风险预测预警,全面推进新时期我国河湖水生态健康治理现代化.

猜你喜欢
富营养化河湖变量
淮河流域省级河湖长第一次联席会议召开
寻求不变量解决折叠问题
抓住不变量解题
黑龙江:河湖治理保护成效明显
洪口水库近年富营养化程度时间分布的研究
打造河湖长制“武汉样板”
我省一大批重要河湖水质达近30年来最好水平
高效溶藻菌对富营养化水体的治理效果
中国农业面源污染研究进展
人工浮岛技术净化废水研究与实践