森林火灾时空分布特征及易发性分析研究

2023-12-22 03:38张国丽慈雪伦杨雪清蒋春颖孙志超孟海丁

林业资源管理 2023年5期

张国丽,慈雪伦,杨雪清,蒋春颖,孙志超,孟海丁

(国家林业和草原局林草调查规划院，北京 100714)

森林火灾是地球系统的重要扰动之一,是植被生态系统面临的主要自然灾害,对生态系统平衡、植被分布和人类生命财产等多方面都产生了深远影响[1]。近年来,全球进入了森林火灾的高发期,极具破坏性的火灾事件激增[2]。研究表明,由于全球变暖,21世纪末期,全球火灾易发区的面积将增加29%,火灾季节长度显著延长[3]。气候变暖也将导致我国森林火灾发生概率呈增加趋势[4],我国仍将长期处于森林火灾的易发期和高危期,森林防火形势极其严峻[5]。森林火灾易发性分析是自然灾害研究的方向之一,也是制定防灾减灾对策的依据[6]。研究森林火灾的时空分布特征和易发性空间分布格局,可为森林火灾预防提供科学依据。

森林火灾的发生受可燃物、地形、气象条件和野外火源等多致灾要素影响[3]。已有很多基于气象因子建立林火发生模型方面的研究,如:高博等[7]通过分析气象因子与林火的关系,使用逐步回归方法建立大兴安岭地区森林火灾发生模型;梁慧玲等[8]基于气象因子,使用逻辑回归和地理加权逻辑斯蒂回归两种模型,对比分析福建地区林火发生的可能性。目前,林火易发性模型多集中于区域尺度的研究,如:谢绍锋等[9]基于泰森多边形与条件熵构建林火易发性模型,分析广州市林火空间分布规律;Zhuang et al[10]通过深度无监督表达学习,对森林地理信息进行建模并对区域林火易发性进行评估。由于森林火灾受多致灾要素影响,且林火易发性与野火驱动因子之间存在复杂的非线性关系,传统线性模型在解释非线性关系时具有局限性[11]。近年来,国内外学者对机器学习方法在林火易发性分析中的应用做了大量研究[12],如:Jain et al[13]系统总结了机器学习方法在林火科学和林火管理中的应用及未来面临的挑战;Zhang et al12,14]对比分析了多种机器学习模型在森林火灾易发性建模中的应用。随机森林(random forest,RF)算法是常用的机器学习方法之一,由于不受变量间多重共线性的影响,能自动选择重要变量和处理变量间复杂的交互关系,RF模型已在我国林火发生预测研究中得到了广泛应用[15]。如:潘登等[16]使用气象因子对湘中丘陵地区构建林火预测模型,结果表明RF的预测准确率优于传统二项逻辑斯蒂回归模型;马文苑等[17]对比分析了RF和逻辑斯蒂模型在山西省林火发生预测中的应用;苏佳佳等[18]综合应用增强回归树、RF和支持向量机这3个模型预测气候变化对未来林火干扰的影响;高超等[11]对我国林火发生模型的研究现状进行了系统总结,对比分析了多种传统线性回归方法和机器学习方法在林火发生预测中各自的优缺点,表明随机森林方法具有更好的预测能力。近年来,我国森林火灾研究逐步从仅考虑气象条件向多致灾要素发展,研究的空间尺度逐步从区域扩展到全国[19]。

根据上述研究总结,目前林火研究仍存在以下问题:第一,由于缺乏可燃物载量调查数据,以往林火易发性分析中未考虑此项因素;第二,从空间尺度上看,大多数研究是从省级或区域尺度进行研究,缺乏全国尺度的林火易发性分析;第三,林火发生模型多样化,探讨能够考虑多致灾要素的林火易发性模型十分必要。本研究基于全国第一次森林和草原火灾风险普查数据,在完善林火驱动因素的基础上,利用随机森林算法构建林火易发性模型,量化分析31个省份的森林火灾发生的时空特征和易发性空间分布格局。研究结果对于合理制定森林火灾管理政策、减少森林火灾对自然生态系统与人类社会系统的不利影响,实现可持续发展具有重要实际意义。

1 研究数据来源

根据全国森林和草原火灾风险普查获取的历史火灾调查数据(1)国家林业和草原局.全国森林和草原火灾风险普查调查数据.2023.,提取31个省份2011—2020年历史森林火灾数据,其属性信息包括森林火灾次数、火源、起火地点、起火时间、经纬度、火场总面积、受害森林面积和人员伤亡等信息;对历史森林火灾数据进行数据质量检查,剔除坐标信息不准确和属性信息不完整的数据。

森林可燃物包括单位面积总可燃物载量和可燃性。在全国森林可燃物标准地实地调查数据的基础上,全面获取31个省份森林可燃物基本状况信息,建立林分因子与乔木、灌木、草本、枯落物、腐殖质等不同层可燃物载量关系模型。基于2019年森林资源管理“一张图”,通过构建可燃物估算模型推算各类型可燃物载量,形成31个省份森林单位面积总可燃物载量空间分布数据。可燃性以优势树种(组)燃烧的难易程度作为划分依据,将优势树种(组)归并难燃、可燃、易燃等3类。

气象数据来自中国气象数据共享网(http://data.cma.cn)。整理并统计2011—2020年中国逐月气象数据,共计6个气象要素,包括月大风日数(d/月)、月平均风速(m/s,10 m)、月平均降雨量(mm)、月平均气温(℃)、月最高气温(℃)和月最小相对湿度(%)等。6个气象要素的空间分辨率为0.01°×0.01°。31个省份的DEM数据来源于2019年8月发布的ASTER GDEM V3版本中的数据(https://earthdata.nasa.gov),空间分辨率为30 m。通过使用ArcGIS 10.8.1软件,从DEM数据中提取31个省份的坡度图和坡向图。我国七大地理分区划分为华南、华中、东北、华北、西南、华东和西北地区。

2 研究方法

2.1 指标体系构建

森林可燃物是森林火灾的重要致灾因子之一,直接影响到森林火灾的发生强度和林火行为。本研究主要选取可燃物、气象和地形地势这三大类指标,总计11个林火驱动因素(如表1所示)。根据各省份所设定的防火期,计算防火期内所有气象要素2011—2020年的年平均值。以0.008°格网单元为基础,将所有驱动因素数据统一到网格单元上,并采用最大、最小值归一化方法对数据进行标准化处理。

表1 森林火灾驱动因素

2.2 随机森林算法

RF是一种非线性模型且能够处理复杂的非线性关系,并自动处理森林火灾驱动因素之间的交互效应,可以提高模型的稳定性和精度。RF利用Bootsrap自助抽样法从原始数据集n中有放回地随机抽取样本数据,构建ntree株分类回归树。林火驱动因素为m个,在每株回归树的各节点上随机抽取mtry个驱动因素。每次抽样后,未被抽中的样本形成袋外数据(Out-Of-Bag,OOB),作为测试样本进行模型验证。RF是基于Bagging集成的决策树模型,对每个Bootsrap自助抽样样本进行决策树建模,然后组合多棵决策树,在处理分类问题时,由ntree个决策输出的众数作为最终预测类别[20]。相比于其它机器学习模型,RF不容易出现过拟合,对异常值和噪声有较高的容忍度,预测准确率高。

根据2011—2020年31个省份的历史森林火点数据,统计0.008°格网内发生森林火点的个数,并将其转换为二进制作为林火发生的因变量(即1代表发生火灾,0代表未发生火灾);将11个森林火灾驱动因素作为自变量。使用Python语言并通过Scikit-learn框架开发RF模型,随机抽取70%的样本数据作为训练样本集进行模型训练,30%的样本数据作为测试样本集进行模型验证。为消除样本分布对模型结果的影响,重复3次划分样本。本文中,采用随机搜索进行参数优化,RF模型的决策树ntree为5 000,最大特征数m为11,每次迭代的驱动因素变量抽样数值mtry设置为3,最大深度设置为16。

2.3 特征变量重要性评估

对于RF的每株分类树,使用随机抽取的训练样本构建回归树,可计算出OOB的误差率。为了评价某一特征变量Xj对模型的重要程度,在其他变量保持不变的情况下,随机置换变量Xj的观测值后,再次构建回归树并重新计算OOB的误差率,每变换一次就需重新计算OOB误差率,通过比较误差率的变化趋势来评估该变量对模型的重要程度[21]。

2.4 模型校验

受试者工作特征(Receiver Operating Characte-ristic,ROC)曲线和ROC曲线下方面积(Area Under Curve,AUC)是定量评价二分类机器学习模型预测精度的重要指标[22]。本研究采用ROC曲线和AUC值判断RF模型对31个省份的林火易发性的空间预测能力。ROC曲线是通过设定多个不同临界值计算一系列灵敏度和特异度,以真阳性率(灵敏度)为纵坐标,以假阳性率(1.0-特异度)为横坐标绘制曲线来构建[23]。AUC值可以整体度量分类器性能的好坏,其取值范围为0～1,AUC值越接近1,表明易发性模型的拟合精度越高。

3 结果分析

3.1 森林火灾时空分布特征

基于2011—2020年31个省份历史森林火灾数据,统计结果表明,2011—2020年31个省份共发生森林火灾49 042起,其中2014年森林火灾最多,达6 049起。根据《森林防火条例》[24]所划分的一般森林火灾、较大森林火灾、重大森林火灾和特别重大森林火灾,2011—2020年:31个省份一般森林火灾35 457起,占比72.30%;较大森林火灾13 370起,占比27.26%;重大森林火灾201起,占比0.41%;特别重大森林火灾14起,占比0.03%。2011—2020年,31个省份森林火灾火场面积总计40.32 万hm2,受害森林面积总计13.19 万hm2(其中商品林受害森林面积为6.27 万hm2,公益林受害森林面积为6.92 万hm2),成林蓄积损失435.44 万m3,人员伤亡总计493人。2011—2020年31个省份森林火灾次数和火场面积的年际变化如图1所示。由图1可知:森林火灾次数和火场面积呈现正相关,每年的3—5月和9—12月呈现两个森林火灾发生高峰期;3—5月波峰最高,年际变化整体呈现下降趋势。2011—2020年31个省份受害森林面积和人员伤亡的年际变化如图2所示。由图2可知:受害森林面积整体呈下降趋势,2012年和2017年受害森林面积最大;人员伤亡年际变化波动较大,春季达到峰值,特别是2019年和2020年这两年春季发生的四川凉山州木里县森林火灾和西昌市森林火灾,造成较大人员伤亡。

图1 2011—2020年31个省份森林火灾次数和火场面积年际变化

图2 2011—2020年31个省份受害森林面积和人员伤亡的年际变化

根据我国七大地理分区,对31个省份林火发生次数和火场总面积进行统计分析,2011—2020年全国31省份林火发生次数和火场面积分区统计结果如图3所示。就森林火灾发生次数来讲,各分区林火次数占31个省份林火发生总次数的百分比从高到低依次为西南地区(32.87%)、华南地区(19.73%)、华东地区(18.36%)、华中地区(16.32%)、华北地区(4.63%)、西北地区(4.54%)和东北地区(3.55%),其中重大和特别重大森林火灾,西南、华东和华南地区占比最多。就火场总面积来讲,各分区火场面积占31个省份火场总面积的百分比从高到低依次为西南(23.92%)、华东(19.86%)、华南(17.78%)、东北(14.89%)、华中(11.16%)、华北(7.8%)和西北(4.59%),其中特别重大森林火灾,东北地区和华北地区占比最高。西南、华东和华南地区虽然林火发生次数较多,但单场火灾火场面积较小,以一般森林火灾为主;东北和华北地区虽然林火发生次数少,但森林火灾发生后容易形成重大和特大森林火灾,特别重大森林火灾火场总面积高于南方地区。

图3 2011—2020年31个省份森林火灾发生次数和火场面积分区统计结果

根据森林火灾发生的季节,分析31个省份不同季节下森林火灾发生的空间分布情况。从季节上看,2011—2020年31个省份森林火灾集中分布在春季和冬季,其中:春季23 421起,占比47.76%;冬季18 500起,占比37.72%;夏季2 863起,占比5.84%;秋季4 258起,占比8.68%。冬春季节的森林火灾发生占比总计达到85.48%。森林火灾的发生在季节上存在明显的时空分异,不同季节下各分区森林火灾发生次数的统计结果如图4所示。春季和冬季是我国森林火灾的高发期。春季,西南和华南地区森林火灾发生次数最多,东北地区森林火灾也以春季为主。冬季,森林火灾主要集中分布在西南、华东、华南和华中地区,东北、西北和华北地区森林火点较少。夏季,森林火灾与冬春季节相比明显减少,且多发生于西南和华中地区。随着夏季干旱和极端高温天气增多,近年来,南北方夏季森林火灾呈现增多趋势,且林火损失较为严重。秋季,森林火点主要集中在南方地区,华南、华东和华中地区的森林火灾发生次数高于东北、华北和西北地区。

图4 2011—2020年31个省份历史森林火灾不同季节各分区统计结果

3.2 重要性排序和模型精度

排列重要性算法是一种模型检验技术,通过随机打乱单个特征值,然后查看模型得分的下降情况,模型性能的衰减量代表了该特征的重要程度。利用RF算法对bootstrap训练样本进行拟合,利用排列重要性算法对森林火灾驱动因素进行特征重要性排序。从排序结果(图5)来看,单位面积总可燃物载量的排列重要性得分最高(0.42),表明单位面积总可燃物载量是林火发生的最重要影响因素,其次是月平均温度(0.39)、月最小相对湿度(0.37)和月平均降水(0.33);月最高气温、坡度、可燃性的重要性得分介于0.21～0.29之间;月平均风速、高程、月大风日数和坡向的重要性得分相对较低,对模型的影响相对较小。

注:“Fuelload”表示单位面积总可燃物载量;“Tas”表示月平均气温;“Rhumin”表示月最小相对湿度;“Pre”表示月平均降雨量;“Tasmax”表示月最高气温;“Slope”表示坡度;“Flamm”表示可燃性;“Windmean”表示月平均风速;“DEM”表示高程;“Windmax”表示月大风日数;“Aspect”表示坡向。

构建历史森林火点和相对应的林火驱动因素数据库。数据库中随机抽取的训练样本集用于模型训练,测试样本集用于检验模型的精度和泛化性能。使用python程序可视化测试样本集的ROC曲线(图6),预测模型的准确度(ACC)为0.84,AUC值为0.87(表明预测结果与测试样本集的拟合度为87%)。可见,本研究所构建的易发性分析模型具有较高的精度。

图6 预测模型的ROC曲线和AUC值

3.3 森林火灾易发性分析结果

基于RF算法,经过模型训练和模型精度验证,构建了适用于我国林火易发性分析的预测模型。将所构建的林火驱动因素数据集输入林火易发性模型中,即可得到31个省份的林火易发性概率分布结果。从空间分布结果看,31个省份的森林火灾发生具有明显的地域分异差异,空间异质性显著,森林火灾易发性高的地区主要分布在华南、华东、西南、华中和东北地区,西北和华北地区林火易发性明显偏低。为了进一步分析31个省份的森林火灾的空间差异,采用自然间断法将森林火灾易发性概率图划分为5个等级,分别为高易发区、中高易发区、中低易发区、低易发区和极低易发区。不同分区下各易发性等级面积占比结果如图7所示。就各分区森林火灾高和中高易发性等级面积占比来讲,从高到低依次为东北(47.53%)、西南(47.16%)、华东(46.85%)、华中(32.65%)、华南(26.73%)、华北(25.10%)和西北(12.02%),东北、西南和华东地区的森林火灾易发性明显高于华北和西北地区,东北、西南和华东地区以高和中高易发性等级为主,华中和华南地区以中低易发性等级为主,华北和西北地区以低和极低易发性等级为主。

图7 31个省份在不同分区中森林火灾易发性等级占比

4 结论

基于全国森林和草原火灾风险普查数据,分析了2011—2020年31个省份森林火灾的时空分布特征。31个省份在不同分区中森林火灾次数和火场总面积存在差异,冬季和春季仍是森林火灾高发期。在这期间,重大和特大森林火灾的发生占较大比例,常造成较大的经济损失和人员伤亡。

首次将单位面积总可燃物载量和可燃性纳入林火易发性分析,明确了单位面积总可燃物载量、月平均温度、月最小相对湿度和月平均降水是林火易发性模型的主要影响因素。应加强营林管理,减少林内可燃物积累。全国森林火灾发生具有明显的地域分异差异,东北、西南和华东地区以高和中高易发性等级为主,华中和华南地区以中低易发性等级为主,华北和西北地区以低和极低易发性等级为主。准确把握我国森林火灾时空分布特征和发生分布格局,在后续森林防火时,应特别关注森林火灾高易发区和中高易发区,加大高和中高易发区的防火投入力度,实施分类指导、分区施策和重点防治,维护森林健康和国家生态安全。从森林资源分布来看,东北林区的大小兴安岭,西南林区的云南、四川和西藏3省交界地区以及东南林区的福建、浙江、湖南等地区森林火灾易发性高,应坚持统筹兼顾,因地因林制宜,实施不同的林火管理策略。如:东北林区是我国国有森林资源集中分布区,易发生重特大森林火灾,雷击火多发,应立足于防,重点提升有效应对和迅速控制重特大森林火灾的能力;西南林区天气多变,地形地貌复杂,森林火灾扑救难度大,应提升组织管理和科学扑救能力,坚决杜绝人员伤亡。

本研究还有进一步完善的空间:一是林火驱动因素中未考虑人类活动和野外火源,有待继续补充和完善;二是主要基于2011—2020年历史森林火灾和林火驱动因素完成31个省份森林火灾易发性分析,后续将在此易发性分析结果的基础上,研建可燃物载量等动态林火驱动因素的年度更新方法,进而实现我国年度火灾动态易发性分析;三是进一步优化和调整模型,将天气数值预报数据作为模型输入,实现多致灾因子驱动下未来短期和中长期林火发生动态预测,以提高我国森林火灾的预测精度。