滑坡危险性预测模型研究进展

2023-03-09 07:06徐浩文谭永滨
北京测绘 2023年8期
关键词:决策树危险性滑坡

徐浩文 谭永滨

(东华理工大学 测绘工程学院,江西 南昌 330013)

0 引言

滑坡是一种易发生于山地且强突发性的地质灾害。我国山地面积的比例较大[2],已成为受到滑坡危害最为严重的地区之一[3]。据国家统计局2021年公布的《中国统计年鉴》显示,2005—2020年共计发生地质灾害31.4万余起,造成伤亡1.4万余人,其中滑坡灾害发生22.6万起,约占地质灾害总数的71.9%,如表1所示。对滑坡进行危险性预测与估计也是滑坡灾情评估工作的核心内容之一,可在滑坡重点防治区域、滑坡灾害损失预评估和滑坡防治工程评价等方面发挥着重要的作用。滑坡危险性是指综合考虑滑坡诱发因素的影响下,在确定区域内一定时期滑坡发生的强度及可能性,可包括滑坡易发性、时间频率和滑坡强度三方面[5]。

表1 2005—2020年地质灾害统计

本文从传统滑坡危险性预测方法出发,探究机器学习中的预测方法,结合滑坡危险性预测进行深入分析。

1 传统滑坡危险性预测方法

传统滑坡预测方法主要分为定性阶段、半定量阶段、统计预测阶段和综合预测阶段这四个部分[6]。在定性阶段中,人们主要凭借个人对自然现象的观察和实践经验来预测潜在的滑坡,该方式滞后性较强且可用的应急响应时间有限;随着滑坡位移-时间曲线与斋藤模型的提出,滑坡的预测逐步由定性分析发展为定量评价;到了统计预测阶段,研究人员融入了数学及统计学理论,加强了预测模型的合理性与科学性;在综合预测阶段,非线性理论与系统科学的提出将滑坡看作为一个开放的复杂系统,通过结合滑坡自身特性与定量预测方法,更加全面地对滑坡的预测研究进行剖析。

1.1 定性阶段

在20世纪60年代之前,人类对于滑坡等自然灾害的预测主要通过对自然现象的观察和实践经验来判断。与诸如火山、地震、海啸等其他自然灾害类似,滑坡灾害在发生前也会呈现各种先兆[7],例如,地下水水位异常上升或下降、地表岩石内部和房屋裂缝处发生异响、动物变得躁动异常等。人们通过这些先兆总结出经验,并以此来判断滑坡是否发生以及可能发生的危险程度。我国在1963年利用这种定性的方法成功预报了宝成线须家河滑坡[8]。然而,定性的预测方法仅能观测出具有明显前兆的滑坡,且预测结果具有强滞后性、低精度的缺点,在实际生产生活中实用性较低。

1.2 半定量阶段

20世纪60年代,日本学者斋藤首次提出了较为科学的滑坡预测方法,标志着滑坡预测从定性逐步进入定量化阶段[9]。斋藤通过大量的实验和研究,提出了滑坡位移与时间的预测模型,认为滑坡从开始变形到最终破坏结束需要经历一段蠕变过程(蠕变曲线如图1)。蠕变过程可分为三个阶段,第一阶段为初始蠕变阶段(a~b),蠕变速率逐渐变缓;第二阶段为等速缓慢蠕变阶段(b~c),蠕变速率保持不变;第三阶段为加速蠕变阶段(c~d),滑坡快速蠕变直至最终破坏结束[10]。

图1 滑坡位移与时间蠕变曲线

其中,第二、三阶段的滑坡形变速率都与最终滑坡的结束时间有关,滑坡时间预测公式分别如式(1)、式(2)所示。

(1)

(2)

式中,tr为滑坡破坏的时间;ε为第二阶段应变速率;±0.59为包含95%测量值的范围;Δt为距离滑坡破坏时间。

利用斋藤模型,日本在1970年对高汤山滑坡进行了成功的预测,证明了该模型的实用性[11]。但是,仅根据蠕变第三阶段的位移时间信息只能进行滑坡临坡前短期预报且精度不足,众多学者在斋藤模型基础上进行了诸多改进工作。E.Hoek结合斋藤模型,针对智利的Chuquicamata矿滑坡监测曲线提出了外延法。由于斋藤蠕变经验公式的局限性和滑坡的复杂性,这些改进模型方法仍无法进行长期预测,但却给未来逐步定量化科学化的滑坡预测做了一个良好的开端。

1.3 统计预测阶段

20世纪80年代,随着概率论、数理统计、模糊数学等数学理论方法的普及和计算机技术的发展,研究人员将这些理论与技术应用于滑坡预测,尝试通过数学模型模拟滑坡的变化规律,提高了滑坡预测的精度与科学性。在此阶段的研究中,具有代表性的是灰色模型GM(1,1)和Verhulst模型。

灰色系统理论分析最早于1982年由中国学者邓聚龙教授提出,主要针对具有不确定性且信息数据不完整的模型,通过挖掘其中的深层信息来建立对应的微分方程,进而预测未来的发展趋势[13]。在整个灰色预测理论中,GM(1,1)模型是最为核心的部分,应用十分广泛。陈明东等(1988年)首先将灰色系统理论中的GM(1,1)模型法引入滑坡位移—时间曲线的拟合外推,提出了滤波灰色分析法进行滑坡的中期预报[14]。其优点在于预测模型无须大量的数据,可用于解决历史滑坡数据量少、信息不完整等问题。相应地,由于数据量较少且不完整,灰色预测模型只适用于中长期且成指数增长的预测,对波动性较大的数据预测结果差。

Verhulst生物生长模型也是灰色系统理论的组成部分之一,我国学者晏同珍认为滑坡的发生、生长、成熟与消亡过程与生物类似,将Verhulst模型融合进滑坡预测中,探究滑坡孕育过程的内在规律[15]。这种结合主要通过对原始地面位移监测数据通过累加、逆累减并求解非线性微分方程,预测滑坡发生时间。以此模型为基础,在甘肃天水的黄龙西村滑坡、长江西陵峡的新滩滑坡和意大利的Vaiont坝库滑坡这三个实例的验证上取得了成功。殷坤龙等利用Verhulst模型对南京鸡鸣寺滑坡进行了成功预报检验[16]。针对利用Verhulst模型进行滑坡预测存在的理论量化依据不足、以速度最大值作为判别依据等问题,李天斌等认为使用Verhulst生物生长模型的“S”型曲线来模拟滑坡形变的反“S”型曲线过程不合理,提出了使用Verhulst反函数来模拟滑坡的形变过程[17]。

总体上看,统计预测阶段结合了数学、统计学的大量知识,更倾向于从方法上入手,不断改进滑坡预测方法以求在精度上更进一步,意味着滑坡预测走向了定量化发展阶段。但是,这个阶段的研究过于关注方法上的创新改进,较少地将滑坡的自身特性与各种预测模型更紧密地结合。虽然能较好地拟合已经发生的滑坡灾害,却难以有效预测演化中的滑坡变形体。在分析筛选各类滑坡数据上、对各个滑坡影响因子的权重分配上、如何弱化和消除滑坡预测中的干扰信息等方面,还有待加强。

1.4 综合预测阶段

20世纪60年代以来,随着系统科学以及非线性理论的发展,滑坡预测进入了综合预测阶段。在这期间,诸多相关领域的学者认识到了滑坡是一个极其庞大开放的复杂系统。它是一个充满灰与白、确定性与随机性、渐变性与突变性、平衡与非平衡、有序与无序的对立统一的体系[6]。在此阶段,滑坡预测方面的研究发展迅速,许多学者将非线性系统的研究理论与滑坡预测相结合,创新性成果层出不穷。苏爱军等利用数值统计的解析与数值方法处理建立模型对滑坡进行预报[18]。秦四清等运用非线性动力学的思路和方法并结合确定性与非确定性预测,编制了滑坡时间预报综合分析软件[19]。在此阶段,地理信息系统(geographic information system,GIS)与滑坡预测的结合也愈发紧密。文献[20]从数字高程模型中得出了雨融雪事件引发的滑坡空间预测相关的环境属性并将这些数据与统计和GIS相结合,为滑坡灾害的空间预测提供了详细的依据。文献[21]结合GIS,开发了一种概率位移分析方法,利用伪静态滑坡稳定性模型对滑坡危险性进行评估。

在综合预测阶段,研究人员认识到滑坡作为一个开放的复杂系统,滑坡的形成是其内多种因素共同作用导致的结果。此外,GIS在滑坡预测方面的应用,也给滑坡空间、时间数据的分析处理提供极大便利,在滑坡预测中起到了关键作用。针对非线性系统进行预测的方法陆续被应用于滑坡预测中,研究人员结合滑坡本身的特性,从一个完整系统的角度重新审视滑坡。

2 基于机器学习的滑坡预测模型

机器学习模型具有强大的学习与泛化能力,且能够拟合非线性系统,被广泛地应用于滑坡预测中,包括无监督学习与监督学习两类。

2.1 无监督学习

无监督学习是指在不使用标签的情况下对数据进行学习,从而发现数据内部的模式和结构。当滑坡数据缺少标签或进行人工标注的成本过高时,通常选择无监督学习方式对数据进行处理。然而,一方面,由于无监督学习的训练数据不具备标签,模型无法确定预测的准确度;另一方面,无监督学习对滑坡数据质量要求较高,如果滑坡数据质量不佳,容易得出错误的结论。

因此,无监督学习通常不能直接做预测,主要用于学习数据的内在结构和特征,调整模型的超参数,以此来对数据进一步分析,为监督学习提供有价值的信息。无监督学习算法包括两类:降维和聚类,在滑坡危险性预测中,常用的算法有核主成分分析、谱聚类、K-Means聚类等。

2.1.1降维算法

降维算法是一种将高维数据映射到低维空间的方法,可在保留重要数据信息的同时进行降维,减少计算复杂度,还可以消除特征间的相关性,使得模型更加稳定,但也有可能会丢失重要信息。

常见的降维算法有主成分分析、核主成分分析和线性判别分析。对于滑坡这一复杂的非线性系统,通常选用核主成分分析来处理。核主成分分析是在主成分分析的基础上加入了核函数的无监督学习算法,使其能处理非线性数据。它的目的是将原本的多维数据转化为低维数据,同时尽可能保留原数据的信息。在滑坡危险性预测方面,可以认为某些滑坡影响因子间有一定相关关系,通过核主成分分析将重复的滑坡影响因子变量去除,在保持原有信息的基础上建立尽可能少的新变量,使得这些新变量两两不相关,从而实现降维。文献[22]基于核主成分分析,对变量进行加权,提取滑坡数据原始特征,再混合核函数最小二乘支持向量回归模型预测滑坡。文献[23]利用核主成分分析方法提取降雨、地下水等滑坡影响因素特征,构建BP神经网络对白水河滑坡进行预测。

2.1.2聚类算法

聚类算法是一种将数据划分成多个类别的方法,其中每个类别中的数据具有相似性。常见的聚类算法有K-Means、层次聚类和密度聚类等。在滑坡危险性预测中,聚类算法可将滑坡数据划分成不同的簇,进而发现滑坡的内在结构和规律。文献[24]利用不确定DM-Chameleon聚类算法有效地处理了大规模降水数据集,并在延安市宝塔区的滑坡数据中验证了该滑坡危险性预测模型的精度,并基于聚类结果提取出致灾因子与滑坡危险性等级之间的关系。文献[25]比较了K-Means、谱聚类和层次聚类三种模型,研究其在海底滑坡危险性方面的性能,结果表明,谱聚类在海底滑坡危险性预测中表现最佳。

与降维算法类似,聚类算法通常也需要与其他预测模型结合,将聚类的结果作为输入特征放入预测模型进行预测。聚类算法不需要人为指定数据的类别,可自动发现数据中的类别,但如果簇数不合适,可能会导致结果不理想,而且聚类算法对数据的密度和分布敏感,对于数据的输入有一定的要求。

2.2 监督学习

监督学习通过对大量带有标签的训练数据进行学习,来预测未知数据的标签,在滑坡预测中,常用监督学习来预测其危险性。当滑坡数据具备代表其危险性的标签时,通常选择监督学习方式,其具有以下优点:①通过对带有标签的数据进行学习,能够确定预测的准确度。②在滑坡发生后,通过分析标签数据,能够分析发现滑坡发生的原因。③监督学习能够更好地利用数据信息,从而提高预测的准确性。相应地,由于监督学习对于获取标签数据的依赖性较大,如果标签数据获取不全或不准确,可能会影响预测的准确性;同时,监督学习需要较大的训练数据集,以便模型能够学习到足够多的信息;并且监督学习的计算复杂性较高,运行所需硬件设备较高且所需时间较长。

常见的用于滑坡预测的监督学习算法有逻辑回归、决策树、随机森林、支持向量机和人工神经网络这五种。

2.3.1逻辑回归

逻辑回归(logistic regression)是一种广泛用于解决二分类问题的机器学习模型,常用于预测一个样本属于某个类别的概率,其基本原理是利用一个线性回归模型来预测概率值,然后将概率值转化为类别预测。由于逻辑回归模型简单高效且易于理解,也广泛运用于滑坡等地质灾害的预测中。文献[26]利用多元逻辑回归和GIS技术来预测美国堪萨斯州东北部的山体滑坡灾害。文献[27]采用Gumbel分布计算降雨概率,结合逻辑回归模型对韩国仁济地区进行空间滑坡危险性预测。文献[28]利用逻辑回归方法,考虑滑坡坝的形态特征和颗粒组成以及上游堰塞湖的水动力条件,快速预测滑坡稳定性,借此评估其危险性。

逻辑回归作为经典的二分类机器学习算法,用于滑坡危险性预测中较为理想。其优势在于:①简单易用。逻辑回归模型结构简单,容易理解和实现。②计算效率高。逻辑回归模型在计算概率值时通常使用指数函数,计算效率较高。③输出结果易解释。逻辑回归模型输出的结果是一个概率值,可以直接解释为发生概率。

2.3.2决策树

决策树(decision tree)是一种基本的分类与回归方法,通过将数据分成若干个简单的决策节点,每个决策节点对应一个特征值或者一个条件,从而形成一棵树状结构。每次决策时,模型会从根节点开始,根据每个节点的条件和特征值指向下一个节点,直到到达叶子节点,并返回最终的结果。在滑坡危险性预测方面,训练决策树模型时,使用大量的数据来学习滑坡危险性的特征和条件,并通过交叉验证来评估模型的准确性。在使用决策树模型预测时,输入新的数据并跟随决策树的分支流程计算出最终的预测结果。文献[29]利用遥感和GIS技术对滑坡、地形、地质等空间数据进行探测、采集和建库,使用卡方自动交互检测器和快速、无偏、高效地统计树算法来构建决策树模型,对韩国平昌地区进行滑坡危险性空间预测。

研究人员还对基础决策树做了诸多改进,扩展出表现更优的模型。可信决策树是一种基于统计方法的决策树改进模型,它使用极大似然比和拟合度量来评估节点的信度。文献[30]利用k折交叉验证和可信决策树的方法,研究伊朗厄尔布尔士省塔里干盆地的滑坡危险性程度。交替决策树允许跳跃式决策并使用特征选择和节点划分的方式。文献[31]运用交替决策树的方法,对中国宜黄地区的滑坡危险性进行空间预测。这些改进模型均在决策树的基础上进行了改进,从而使得模型更加灵活,能够更好地适应复杂的滑坡数据。

决策树的优点在于可以自动从原始数据中提取特征,并且模型的决策过程是可解释的。然而,模型可能过于简单而无法适应复杂的数据,或者可能会由于过拟合现象而在新的滑坡数据上表现不佳。

2.3.3随机森林

随机森林(random forest)是一种通过建立多棵决策树来对样本进行训练及预测的模型。在机器学习中,随机森林因其简单的结构和强大的性能,应用和影响非常广,其在决策树的基础上做了如下改进:①通过随机选择数据的子集和特征的子集来训练每棵决策树,从而避免了决策树过拟合的问题。②通过对每棵决策树的训练结果进行投票,从而使得预测的结果更加稳健。③通过计算决策树的不纯度来评估特征的重要性,从而进行特征选择。

在滑坡危险性预测中,随机森林的应用非常广泛。文献[32]将随机森林分类器与GIS数据相结合,针对山区公路上降雨诱发型滑坡进行研究,预测其危险程度。文献[33]结合SBAS-InSAR和粒子群优化的随机森林算法,对鲁甸县地震频发、河谷深切、地形高差大的复杂山区的滑坡危险性进行研究。

与基础的决策树模型相比,随机森林模型的泛化能力更强,能够处理高维数据且对缺失数据不敏感,不易产生过拟合现象。然而,由于随机森林模型对噪声数据不敏感,这样就有可能导致模型在训练数据上的表现不好,无法拟合有意义的滑坡数据信息。

2.3.4支持向量机

支持向量机(support vector machine,SVM)是一种对数据进行二元分类的广义线性分类器。其主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。在滑坡危险性预测方面,通常将大量滑坡数据分为有潜在危险和无潜在危险两类,作为正负样本来训练。文献[34]基于最小二乘支持向量机和差分搜索算法,预测三峡水库岸线上的白水河滑坡和谭家河滑坡的位移,进而评判其危险性。文献[35]结合双输出最小二乘支持向量机和粒子群优化算法,对滑坡位移进行区间预测。

作为优秀的二分类机器学习模型,在滑坡危险性预测中,支持向量机具有以下优点:①在模型训练后能够达到较高的精度,因此在滑坡危险性预测中可以获得较高的准确度。②在高维空间中也能有效地进行分类,因此在滑坡危险性预测中能够处理多维特征。③能够使用核函数将数据映射到高维空间,从而解决线性不可分问题,使得模型能够对非线性数据进行分类。另一方面,支持向量机也存在一些缺点:①若滑坡数据维度远大于样本量,模型表现较差。②运算复杂度较高且需要花费一定的时间调整超参数来达到最佳性能。

2.3.5人工神经网络

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有非线性、非局限性、非常定性和非凸性四大基本特性,在处理滑坡等非线性复杂系统中,可以充分逼近其中非线性关系,得到广泛的应用。文献[36]结合灰色理论和神经网络理论的优点,提出了一种新的灰色神经网络非线性预测模型,对滑坡位移进行预测。文献[37]使用人工神经网络的反向传播对1990年伊朗北部地震受灾地区的山体滑坡进行风险研究,采用Newmark位移分析方法绘制了地震震中附近察哈尔-玛哈尔和查尔卡萨尔区块的地震诱发滑坡灾害图,借此对地震诱发型滑坡进行预测。文献[38]利用GPS监测三峡水库的白水河滑坡,获取其地表位移及诱发因素即库水位、降雨量等,构建BP神经网络预测模型对滑坡进行预测。

人工神经网络是非线性的系统,人工神经元处于激活或抑制二种不同的状态,具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。其应用于滑坡的优势在于:①强大的学习能力。人工神经网络能够从庞大的滑坡数据中学习复杂的模式,并能够在未见过的数据上进行预测,这使得它能够适应并识别各种滑坡特征。②强大的鲁棒性和容错性。所有定量或定性的滑坡信息都等势分布贮存于网络内的各神经元,便于存储且容错性较强。③效率高。人工神经网络多采用并行分布处理方法,能够同时快速进行大量运算。同样,由于人工神经网络会应对庞大的训练数据集,也会产生过拟合、训练较长等缺点,这些缺点可以通过调整数据集和优化模型来改善。

3 结论

滑坡危险性预测是滑坡灾情评估工作的核心内容之一,传统的滑坡危险性预测或是具有强滞后性、局限性,或是未能将滑坡本身特性与预测模型相结合,导致预测精度不理想。机器学习的方法因其具有强大的拟合能力,能够对海量的滑坡数据处理,自动提取特征,被广泛应用于滑坡危险性预测中。

随着滑坡数据的多样性与复杂程度逐渐上升,使用机器学习预测滑坡的一些问题逐渐显露。在实际应用中滑坡发生的频率相对较低,因此通常会存在类别不平衡的问题,这会导致模型在训练和评估过程中偏向于预测负例,从而影响模型的准确性。此外,由于滑坡危险性预测需要考虑多个因子的影响,实际数据中某些因子可能会存在缺失值和异常值,进而影响模型效果。针对上述存在的问题,可以通过欠采样、过采样等技术使得正负样本数目接近,结合均值填充、中位数填充等方法降低缺失值对模型的影响,进而提升模型整体水平。

尽管机器学习在滑坡危险性预测中尚存在些许不足,但不可否认的是,由于机器学习优秀的性能和表现,其仍是当前的主流方法。随着科学技术的进步与发展,机器学习与深度学习新技术的融入,大量高质量的原始滑坡数据将被不断挖掘以用于滑坡预测中,训练数据的质量不断提升。后续可利用这些高精度数据,结合更强大的深度学习模型,挖掘出原始数据中更关键的特征并应用至预测模型。针对滑坡这类非线性的复杂系统而言,对其危险性的预测正朝着全方位多元化综合发展。

猜你喜欢
决策树危险性滑坡
O-3-氯-2-丙烯基羟胺热危险性及其淬灭研究
危险性感
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
输气站场危险性分析
基于AHP对电站锅炉进行危险性分析
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
浅谈公路滑坡治理
基于决策树的出租车乘客出行目的识别
基于Fluent的滑坡入水过程数值模拟