吉林省延边地区森林火灾发生概率预测模型1)

2024-01-12 10:16曹丽丽刘向宇陈响于淼欣谢文君单仔赫高博单延龙于渤崔晨曦
东北林业大学学报 2024年3期
关键词:火点林火坡向

曹丽丽 刘向宇 陈响 于淼欣 谢文君 单仔赫 高博 单延龙 于渤 崔晨曦

(森林草原防灭火科技创新中心(北华大学),吉林市,132013)

森林火灾是森林3大自然灾害之首,近年来,全球气候变暖现象加快,极端天气频发,世界多国相继发生大规模森林火灾,森林防火工作异常严峻[1-3]。我国是受林火危害较为严重的国家之一[4],从1987年“5·6大兴安岭特大森林火灾”到2019年和2020年木里县森林火灾,多年来我国一直饱受林火危害。针对这一危害严重的自然灾害,我国一直坚守着“预防为主,积极消灭”的基础方针,对森林火灾的预防工作投入了大量资源[5-6]。其中,基于林火预测预报的林火预警系统是林火监测与防控的重要技术手段之一。尤其是对林火的发生起到了预测作用,它考虑了气象、可燃物、地形地貌、社会经济、人类活动等林火影响因素,通过建立统计学或机器学习模型实现对某一时段、地区林火发生的频率、概率、面积进行预测[7-9],对森林火灾的预防具有重要的指导意义。

截止到2022年,吉林省已实现连续42 a无重大森林火灾发生。但多年来的保护和没有林火干扰,导致林内的可燃物长时间积累,可燃物载量持续增加,林火发生风险显著增强。尤其是延边地区,森林覆盖率高,植被资源丰富,而且毗邻俄罗斯和朝鲜,边境火烧入风险极高[16-17],森林火灾防控形势异常严峻。目前,延边地区的森林火灾预警响应机制全面建立、火源管控能力持续改善、林火防控体系不断健全[18],但延边地区在林火预测工作中采用的是基于气象因子建立的火险等级系统,该系统并未考虑地形地貌、人为与社会经济因子对林火发生的影响,林火预测能力相对较低。本研究以延边地区为研究区域,基于2000—2019年的历史火灾资料,结合气象、地形地貌、植被、人为与社会经济等因素使用广义线性模型和机器学习模型建立延边地区森林火灾发生概率预测模型,筛选更适用于延边地区的林火发生概率预测模型,旨在为降低该地区林火发生风险,制定科学有效的森林火灾管理对策提供技术支持。

1 研究区概况

延边地区位于吉林省东部,下辖6市2县,位于北纬41°59′47″~44°30′42″、东经127°27′43″~131°18′33″,东与俄罗斯接壤,南与朝鲜隔江相望,整个地势西高东低,自西南、西北、东北三面向东南倾斜[17]。该地区属中温带湿润季风气候,年日照时间2 150~2 480 h,年平均气温4 ℃,年降水量400~800 mm,无霜期100~150 d。土壤类型包括暗棕壤、白浆土、草甸土等。延边地区森林覆盖率达79.39%[19],常见树种包括云杉(Piceaasperata)、红松(Pinuskoraiensis)、白桦(Betulaplatyphylla)、紫椴(Tiliaamurensis)、落叶松(Larixgmelinii)、蒙古栎(Quercusmongolica)等。

2 材料与方法

2.1 数据收集和整理

历史火灾资料来源于吉林省档案馆和吉林省林业和草原局森林草原防火和安全生产处,统计并整理了2000—2019年延边地区森林火灾的起火时间、起火地点、经纬度、起火原因、火场总面积等基本信息;气象数据来自中国气象数据共享网(http://data.cma.cn),统计整理了2000—2019年延边地区的逐日气象数据,包括气温、气压、湿度、风速、降水量等逐日气象数据;数字高程数据来源于地理空间数据云(http://www.gscloud.cn)的GDEMV2 30M分辨率数字高程数据集;行政边界数据、道路、河流、居民点等矢量数据来源于全国地理信息资源目录服务系统(http://www.webmap.cn)的1∶100万全国基础地理信息数据库;归一化植被指数(NDVI)数据、人口密度数据和GDP数据分别来源于中国科学院资源环境科学与数据中心(https://www.resdc.cn)的中国年度植被指数空间分布数据集、中国人口空间分布公里网格数据集和中国GDP空间分布公里网格数据集。

2.2 构建数据集

研究所需的数据集由因变量和自变量两部分组成,其中因变量通过ArcGIS Pro软件的“XY转点要素”(火点)和“创建随机点”(非火点)工具生成。具体而言,使用起火地点的经纬度信息创建火点数据,剔除含缺失值的数据后,共创建火点479个;将火点的火场范围简化为圆形,根据火场总面积以火点为中心生成缓冲区,在去除缓冲区的延边地区范围内按火点和非火点1∶1的比例生成非火点479个,非火点间最小间隔为500 m[20],并使用Excel软件对非火点数据进行随机时间赋值。

自变量数据包括森林火灾发生当日的气象数据(日降水量、平均气温、平均气压、平均水汽压、日照时间、最大风速和最小相对湿度)、地形地貌数据(海拔、坡度、坡向指数和距最近水系距离)、归一化植被指数(NDVI)和人为与社会经济数据(距最近铁路距离、距最近公路距离、距最近居民点距离、中国国内生产总值(GDP)和人口密度)。根据延边地区8个气象台站经纬度创建气象台站点数据,计算距离每个火点与非火点最近的气象台站,并使用Python根据气象台站和时间对火点与非火点数据进行气象数据赋值。

海拔、坡度、坡向指数、NDVI、人口密度和GDP数据均为栅格数据形式。其中,海拔、坡度、坡向指数数据均源于GDEMV2 30M分辨率数字高程数据集,使用栅格表面分析,获得坡度和坡向栅格数据,然后使用栅格计算器根据公式(1)将坡向栅格数据转换为坡向指数栅格数据,以解决建模中坡向取值无法描述其与林火发生概率之间的相关性问题[21]。人口密度和GDP数据集的数据时间包括2000、2005、2010、2015和2019年5期,并查阅《中国统计年鉴》计算延边地区其他年份的人口增长率和GDP增长率,然后使用栅格计算器工具获取其他年份的人口密度和GDP栅格数据。最后根据火点、非火点的经纬度与时间信息通过提取栅格值对火点、非火点进行海拔、坡度、坡向指数、NDVI、人口密度和GDP赋值。

PTR=cos(απ/180)。

(1)

式中:PTR为坡向指数,α为坡向的取值(单位为(°))。

从1∶100万基础地理信息数据库中获取吉林省内铁路、公路、居民点和水系的矢量数据,并计算其与火点、非火点的最近距离,实现对火点、非火点的距最近铁路距离、距最近公路距离、距最近居民点距离和距最近水系距离的赋值。

2.3 数据预处理

基于气象、地形地貌、植被和人为与社会经济数据建立延边地区的林火发生概率预测模型,研究开始前对数据进行标准化处理,以消除量纲对模型预测的影响。然后将17个初始自变量导入SPSS软件中进行多重共线性检验,所有的自变量均通过了多重共线性检验(VIF<10)。将标准化后的数据划分为70%的建模样本和30%的验证样本,建模样本用于建立林火发生概率预测模型,验证样本用于评价模型预测准确率。

2.4 林火发生预测模型

本研究使用R语言和Gwmodel S软件分别基于广义线性回归模型和机器学习模型建立延边地区林火发生预测模型。

逻辑斯蒂回归模型(LR)被广泛应用在林火发生概率预测研究中,它能够通过logit函数将线性模型的预测值转化为[0,1]的概率值。设林火发生概率为P,则林火不发生概率为(1-P),则有:

ln[P/(1-P)]=β0+β1X1+β2X2+…+βnXn。

(2)

式中:β0为常数项,自变量Xn为筛选出的各林火驱动因子,βn为各自变量的系数,n为变量数量。

地理加权逻辑斯蒂模型(GWLR)是LR模型的扩展,它为传统LR模型引入了空间因素,通过对每个样点进行参数估计以解决空间非平稳性对预测模型的影响。设林火发生概率为P,则林火不发生概率为(1-P),则有:

ln[P/(1-P)]=β0(ui,vi)+β1(ui,vi)Xi1+β2(ui,vi)
Xi2+…+βn(ui,vi)Xin。

(3)

式中:(ui,vi)为第i样本点的坐标,β0(ui,vi)为第i样本点的常数项,自变量Xin为第i样本点筛选出的各林火驱动因子,βn(ui,vi)为第i样本点各自变量的系数。

随机森林模型(RF)是一种机器学习算法,既可进行回归分析,也可用于分类研究。RF模型是决策树模型的组合,它从建模样本中随机有放回地进行m次随机抽样获得m个采样集并构建决策树模型,对于回归模型使用多棵决策树预测均值作为预测结果,对于分类问题使用多棵树投票划分最终分类结果。

支持向量机模型(SVM)是Vapnik等基于万普尼克-泽范兰杰斯理论(Vapnik-Chervonenkis theory)和结果风险最小化原则提出的机器学习算法,既可实现模式识别也可以进行函数估计。对于分类模型来说,SVM能将数据通过核函数映射到高维空间,通过构建最优超平面的方式实现对数据的分类,因此,SVM模型可解决线性不可分问题。

使用优势比作为2种广义线性回归模型中变量重要性的排序标准。变量的优势比越大,其对目标特征(即林火发生概率)的影响也越大,优势比的计算方法见下方公式(4)。使用R语言的randomForest软件包构建RF模型时,设定randomForest函数的参数“importance=T”计算RF模型的变量重要性,变量重要性越大,其对林火发生概率的影响也越大。使用rminer包的fit和importance函数获取SVM函数的变量重要性,并对其进行排序,变量重要性值越大,其对林火发生概率的影响也越大。

OR=exp(βn)。

(4)

式中:OR为优势比,βn为各自变量的系数。

2.5 模型评价及最优模型筛选

使用Origin软件绘制不同模型的受试者工作特征(ROC)曲线,使用曲线和横坐标轴合围面积作为模型拟合度评价标准(本研究设定为模型精度(A)),然后根据ROC曲线的横坐标(1-特异性)和纵坐标(敏感性)计算约登指数,见公式(5)。根据约登指数的最大值确定模型的最佳临界值,并计算验证样本的准确率。

约登指数=敏感性+特异性-1。

(5)

综合考虑模型建模样本精度值(AM)、验证样本精度值(AY)、验证样本准确率和模型复杂度(模型中的自变量数量),使用熵权法对不同模型进行综合评价,计算其综合得分[22],并筛选综合得分最高的模型作为最优模型,以进行林火发生概率及林火发生风险区分布研究。4个评价指标中,拟合度值越大,模型的敏感性和特异性越好,拟合程度也越好;验证样本准确率越大,模型的预测效果越好。因此,建模样本拟合度值、验证样本拟合度值和验证样本准确率为正向指标。而模型复杂度越大,所需获取的数据则越多,因此,模型复杂度为负向指标。

2.6 林火发生概率及林火发生风险区的划分方法

基于最优模型计算的延边地区林火发生概率,使用经验贝叶斯克里金插值法对林火发生概率进行空间插值,绘制林火发生概率分布图,然后将林火发生概率以0.2为中断值,由低到高,将吉林省划分为I~V级的林火发生风险区,并绘制林火发生风险区分布图。

3 结果与分析

3.1 应用LR模型的延边地区林火发生概率预测

使用SPSS软件通过逐步回归(向前法)对17个初始自变量进行筛选,其中,最小相对湿度、坡向指数、植被指数和距最近铁路距离4个自变量进入模型拟合阶段(P<0.05)。将通过筛选的4个自变量与因变量进行Logistic回归拟合,建立延边地区林火发生概率预测模型。模型拟合结果如表1所示,4个自变量均通过了显著性检验(P<0.05),且都与林火发生概率呈显著负相关关系。其中,坡向指数和植被指数的优势比较大,表示其对延边地区的林火发生概率影响较大,其次为距最近铁路距离,最小相对湿度对林火发生概率的影响相对较小。

基于LR模型建立的延边地区林火发生概率预测模型如下:

P=1/[1+e-(-1.210-0.248x1-0.398x2-2.491x3-0.345x4)]。

(6)

式中:P为林火发生概率,x1为坡向指数,x2为距最近铁路距离,x3为最小相对湿度,x4为植被指数。

3.2 应用GWLR模型的延边地区林火发生概率预测

GWLR模型的变量筛选过程与LR模型相同。使用Gwmodel S软件建立GWLR模型,核函数选择“gaussian”,bandwidth type为adaptive,number of nearest neighbours为49。GWLR模型对每个样本点进行参数估计,使用经验贝叶斯克里金法对模型系数进行空间插值,估计无观测值的非采样点区域模型系数,图1为GWLR模型系数的空间分布情况。

表1 Logistic回归模型拟合结果

图1 GWLR模型系数的空间分布

在4个自变量和常数项中,最小相对湿度与林火发生概率呈全局负相关;坡向和NDVI的系数情况相似,均仅在延边州西北部和中南部呈正相关,其他区域呈负相关;距最近铁路距离在延边州北部呈正相关,而在延边州中南部呈负相关;常数项在延边州绝大部分区域呈负相关,仅在西南部极少部分区域呈正相关。

GWLR模型系数不唯一,GWLR模型的变量重要性与LR模型基本相同,均为坡向指数、NDVI和距最近铁路距离较高,最小相对湿度较低(表2)。

表2 GWLR模型的变量重要性

3.3 应用RF模型的延边地区林火发生概率预测

使用R语言caret软件包的rfe函数对建模样本进行10折交叉验证筛选变量,变量筛选方法为“rfFuncs”,然后调用拟合模型中的“optVariables”输出模型变量筛选结果。变量筛选结果表明,海拔、日降水量、平均气压、平均气温、平均水汽压、日照时间、最小相对湿度、NDVI、人口密度、GDP和距最近铁路距离共计11个自变量进入了模型拟合阶段。使用R语言random Forest软件包的random Forest函数利用上述筛选的11个自变量建立RF模型,然后使用predict函数计算验证样本的林火发生概率。如表3所示,在RF模型中,最小相对湿度和人口密度对林火发生概率的影响最大,高于其他9个自变量,变量重要性分别为0.605和0.604;其次是平均水汽压、平均气温和GDP,变量重要性分别为0.348、0.300和0.288;然后分别为日照时间、距最近铁路距离和海拔,变量重要性分别为0.200、0.192和0.189;NDVI、平均气压和日降水量相对较小,变量重要性分别为0.164、0.161和0.129。

表3 RF和SVM模型的变量重要性

3.4 基于SVM模型的延边地区林火发生概率预测模型

使用R语言caret软件包的rfe函数对建模样本进行10折交叉验证筛选变量,变量筛选方法为“lrFuncs”,然后调用拟合模型中的“optVariables”输出模型变量筛选结果。变量筛选结果表明,海拔、坡向指数、日降水量、平均气温、平均水汽压、日照时间、最小相对湿度、植被指数、人口密度、GDP、距最近铁路距离、距最近公路距离和距最近居民点距离共计13个自变量进入了模型拟合阶段。使用R语言e1701软件包的svm函数利用上述筛选的13个自变量建立SVM模型,然后使用predict函数计算验证样本的林火发生概率。

如表3所示,在SVM模型中,最小相对湿度对林火发生概率的影响最大,变量重要性为0.467;其次分别是NDVI、海拔、日照时间、坡向指数和GDP,其变量重要性分别为0.073、0.070、0.065和0.064;再次分别为距最近居民点距离、人口密度、距最近公路距离、距最近铁路距离和坡度,变量重要性分别为0.046、0.045、0.042、0.036和0.020;平均气温和平均水汽压的变量重要性相对较小,变量重要性均为0.002。

3.5 延边地区林火发生概率预测模型评价

延边地区林火发生概率预测模型精度评价。基于模型预测概率及实际值绘制4个不同模型的ROC曲线,使用模型精度(A)值进行模型拟合程度评价。如图2所示,4个模型的拟合效果均较好,模型精度(A)值均大于0.9,其中2种机器学习模型的拟合效果要优于2种广义线性回归模型。

AM为建模样本精度值;AY为验证样本精度值。

延边地区林火发生概率预测模型准确率评价。根据ROC曲线的坐标值确定不同模型的最佳临界值,并计算不同模型预测验证样本的准确率。由表4可知,4种模型中,RF模型预测验证样本的准确率最高,为93.8%;其次为GWLR模型,验证样本准确率为87.2%;SVM模型和LR模型的准确率相近且较低,分别为83.7%和83.0%。就误报率和漏报率而言,除LR模型外,其他3个模型均呈误报率高于漏报率的特征。

表4 林火发生概率预测模型准确率评价结果

最优模型筛选。熵权法结果表明,4个不同模型中RF模型(0.81)的综合得分最高,在延边地区森林火灾的发生预测中具有较好的表现,其次为GWLR模型(0.61)、LR模型(0.31)和SVM模型(0.12)的综合得分较低。

3.6 延边地区林火发生概率及林火发生风险区分布

根据最优模型(RF模型)预测的林火发生概率基于经验贝叶斯克里金法绘制延边地区的林火发生概率分布图。如图3表明,延边地区南部的高林火发生概率分布面积明显高于北部,除西南部毗邻中部一侧的部分区域的林火发生概率较低外,其他南部地区的林火发生概率均较高。从林火发生风险区来看,林火发生概率较高的IV、V级风险区主要分布在南部区域;延边州北部区域多为林火发生概率较低的I、II级风险区。

图3 林火发生概率及林火发生风险区

4 结论与讨论

本研究基于延边地区2000—2019年的森林火灾资料、气象数据、地形地貌数据、植被数据和人为与社会经济数据,使用Logistic回归模型、地理加权Logistic回归模型2种广义线性回归模型和随机森林模型、支持向量机模型2种机器学习模型,建立了延边地区森林火灾发生概率预测模型,筛选了影响林火发生的主要驱动因子,并绘制了延边地区林火发生概率和林火发生风险区分布图。结果表明,本研究建立的4个林火发生概率预测模型均具有较高的拟合度(模型精度值>0.9)和准确率(>80%)。就拟合度而言,机器学习模型的拟合度高于广义线性回归模型,这与机器学习模型极强的数据挖掘能力有关,其他相关研究中也得出了相似的结论[21,23]。就准确率而言,RF模型的准确率最高(93.8%),这主要是由于RF模型对数据异常值具有较高的容忍度[24-25];此外,GWLR模型中引入了空间因素,解决了空间非平稳性对预测模型的影响[26],因此也具有较高的准确率(87.2%)。经最优模型筛选,RF模型为最适用于延边地区的林火发生概率预测模型。4个不同模型中,由于RF模型极高的建模样本拟合度值、验证样本拟合度值和准确率均较高,模型复杂度相对较低,因此RF模型的综合得分最高;其次为GWLR模型;LR模型的综合得分高于SVM模型,二者的准确率相近,而SVM模型的模型精度值高于LR模型,但SVM模型的模型复杂度极高,自变量数量达到了13个,因此其综合得分最低。

RF模型中,最小相对湿度和人口密度的变量重要性最大,对延边地区的林火发生概率影响最大。这主要是因为气象因子是影响林火发生的决定因素[27],尤其是湿度、温度等气象因子,可显著影响地表细小可燃物含水率,从而影响林火发生的概率、林火发生时的火行为及林火的扑救难度[28]。且吉林省的主要火源为人为火,受人类活动的显著影响,因此,人口密度等人类与社会经济因子也具有较大的变量重要性[29]。延边州南部的林火发生概率明显高于北部,除西南部东侧的部分区域外的其它南部区域林火发生概率均较高,而延边州北部的绝大部分区域的林火发生概率均较低,仅在西北部的部分区域相对较高,但与延边州南部相比,仍处于较低水平。

此外,本研究建立的延边地区林火发生概率预测模型,模型拟合程度好、预测精度高,可应用在构建该地区森林火灾发生概率预测预报系统中,进一步实现潜在林火发生概率风险分布的实时化和可视化。建议以最优模型(RF模型)构建森林火灾发生概率预测预报系统,但是机器学习方法对计算机的使用能力要求较高,在基层森林防火部门应用于林火发生的预测可能存在一定的困难,所以在技术相对薄弱的条件下,建议使用GWLR模型用于系统的搭建。

猜你喜欢
火点林火坡向
无锡惠山区坚持“六抓六强” 构建林火防治铜墙铁壁
林火监测系统在森林防火中的应用与发展
亚像元火点对红外预警卫星的辐射干扰特性
半边天
DEM地表坡向变率的向量几何计算法
人身上有5个祛火点
点烟颂
江苏省海门市如何实现连续4年秸秆焚烧“零火点”?
青藏高原东缘高寒草甸坡向梯度上植物光合生理特征研究
坡向和坡位对小流域梯田土壤有机碳、氮变化的影响