应用多时序特征的哨兵系列影像对南方丘陵区树种识别1)

2024-01-12 10:15王洁李恒凯龙北平张建莹
东北林业大学学报 2024年3期
关键词:树种精度分类

王洁 李恒凯 龙北平 张建莹

(江西理工大学,赣州,341000) (江西省煤田地质局测绘大队) (江西理工大学)

森林生态系统变化的长期调查监测与评价是实现经济、社会与环境和谐快速发展的保障[1]。中国南方丘陵地区位于秦岭-淮河以南、青藏高原以东的山地和丘陵分布区,区域内森林资源丰富,植被覆盖面积广、林分结构复杂、地形破碎,传统的森林资源调查方法成本高、周期长。通过遥感影像能快速、准确地进行树种识别和分类,已有多种类型遥感影像应用于树种识别和监测[2-5]。利用时序遥感影像提取和分析植被物候信息,能够准确的反映植被生长过程中明显的季节周期性变化,进而提升树种分类的效果[6-7]。近年来,欧洲空间局(ESA)哥白尼计划发布的哨兵-2(Sentinel-2)时间序列影像数据,为树种分类提供了具有高空间分辨率的数据源。其红边、近红外和短波红外等波段提供了多种光谱信息,在树种识别研究中具有巨大潜力[8]。然而,在大尺度多云雨的南方丘陵地区,光学影像数据的获取极易受到限制。

合成孔径雷达(SAR)具有全天时、全天候等特点,雷达后向散射系数能够提供不同于光学影像的信息,包括植被的含水量、土壤含水量以及地表的几何特征等,广泛用于植被监测及分类。杨丹等[9]利用时序哨兵-1(Sentinel-1)数据和深度循环网络方法对植被进行分类制图,总体精度为82%。

为了提高树种分类精度,将光谱数据和其它数据相结合,发现对树冠形状不同的树种,纹理特征具有重要作用[10]。不同空间分布的树种的地形特征也有所不同,地形特征对地形复杂区域树种的提取也具有重要作用[11]。黄翀等[12]利用Sentinel-2和Sentinel-1对人工林进行分类,总体精度为85%,验证了纹理特征、后向散射特征在树种精细分类上的能力。Ma et al.[13]通过实验证明地形特征能提高树种提取精度。因此,利用雷达、光学影像数据和地形数据提取不同树种特征,可实现多源遥感互补[14]。

除影像数据外,算法也是影响树种分类精度的重要因素,遥感数据和机器学习的结合已成为树种分类的主要方法。Wang et al.[15]使用随机森林(RF)算法结合多时相、多特征Sentinel-2数据对长白山树种进行分类,总体精度为99.79%;Hu et al.[16]采用支持向量比(SVM)算法应用多源遥感数据对树种进行分类,总体精度为89%;Chen et al.[17]采用决策树算法(CART)和QuickBird图像进行树种分类,总体精度为80.50%。表明随机森林算法(RF)、支持向量机算法(SVM)、决策树算法(CART)等机器学习算法均可以用于树种分类。

本研究以江西省宜春市袁州区为例,结合研究区林地实地调查数据,将时序Sentinel-1、Sentinel-2和数字高程模型(DEM)数据相结合,提取不同树种特征,利用分离阈值法(SEaTH)和特征权重算法(ReliefF)进行特征优选,通过RF、SVM和CART分类算法进行对比分析,构建适用于南方丘陵山地的最佳树种分类算法模型,并验证多源数据相结合对大范围树种分类提取的可行性。分析适合南方丘陵地区树种分类的最佳特征因子组合,提取不同树种的空间分布信息,提高森林资源调查和监测的时效性。

1 研究区概况

袁州区位于中国江西省宜春市西南部,地理坐标位于113°54′~114°37′E、27°33′~28°5′N,土地总面积2 532 km2。区域内地貌以山地、丘陵为主,地势西高东低,是典型的南方丘陵区。气候属亚热带季风湿润性气候,森林资源丰富,植被物种多种多样,森林覆盖率达60.15%。袁州区主要树种为杉木(Cunninghamialanceolata)、油茶(Camelliaoleifera)、松树(Pinus)等。其中,杉木、松树和桉树(Eucalyptus)并称为中国南方三大用材树种,具有较高的经济价值。油茶产业是袁州区的特色优势产业,其产量和面积均位于中国前列。根据袁州区林地实地调查数据提取边界,划分区域总面积为2 221.5 km2(见图1)。本研究采用的行政区划数据来源于全国地理信息资源目录服务系统(https://www.webmap.cn)。

2 研究方法

2.1 数据来源与处理

本研究所使用的Sentinel系列数据来源哥白尼开放存取中心(https://scihub.copernicus.eu/),Sentinel-1为干涉宽幅模式(IW)的地距多视产品(GRD),分辨率为10 m,极化方式为VV+VH。Sentinel-2拥有13个不同空间分辨率的光谱波段,试验选取10 m和20 m空间分辨率波段共10个。数字高程模型(DEM)数据下载于地理空间数据云平台(http://www.gscloud.cn)。影像数据采集时间见表1,研究所使用的Sentinel-2影像波段信息见表2。

图1 研究区地理位置

表1 影像数据采集时间表

表2 本研究使用的哨兵-2波段信息

Sentinel-1数据通过轨道校正、热噪声去除、辐射定标、滤波、地形校正和分贝化处理将其转化为后向散射系数图,最后进行裁剪得到研究区雷达影像。Sentinel-2数据通过大气校正,将其从L1C级数据转化为L2A级别数据,剔除60 m分辨率波段后,将20 m分辨率波段重采样至10 m分辨率,最后进行裁剪拼接。DEM数据经过拼接裁剪后重采样至10 m分辨率,并生成地形因子。

样本点数据来源于2019年袁州区林地实地调查数据。根据研究区植被覆盖情况,确定分类类别为油茶、杉木、松树、其它树种、耕地、裸地、水体和建设用地等8类。根据林地调查图生成油茶、杉木、松树和其它树种等4类样本随机点,然后通过谷歌地图(Google Earth)高分辨率影像和实地调查数据剔除异常点。通过目视解译得到耕地、裸地、水体和建设用地等4类样本。最后得到油茶样本2 710个、杉木样本3 184个、松树样本810个、其它树种样本2 873个、耕地样本658个、裸地样本177个、水体样本128个、建设用地样本321个,按照7∶3的比例随机分为训练样本和验证样本。

利用预处理后的Sentinel-1、Sentinel-2和DEM数据提取不同特征。在光谱特征、水体指数和植被指数的基础上,通过不同的特征组合,构建多特征随机森林树种分类模型,然后分别利用分离阈值法和特征权重算法(ReliefF)进行特征优选,筛选出最佳分类特征组合,然后与SVM和CART分类算法进行对比分析。利用混淆矩阵评估3种算法分类结果,选择最优树种分类模型(见图2)。

图2 技术路线与特征变量组合方案信息

2.2 树种分类特征提取

选取Sentinel-2影像的B2(蓝光)、B3(绿光)、B4(红光)、B5(红边1)、B6(红边2)、B7(红边3)、B8(近红外)、B8a(狭窄近红外)、B11(短波红外1)、B12(短波红外2)波段作为研究波段,并提取水体指数、植被指数和红边指数(见表3)。采用灰度共生矩阵(GLCM)提取纹理特征(均值、方差、同质性、对比度、差异性、熵、二阶矩和相关性),为了避免数据冗余,首先对Sentinel-2数据进行主成分分析,提取第一主成分数据,根据第一主成分进行纹理特征提取。利用DEM数据提取高程、坡度、坡向作为地形特征。根据Sentinel-1雷达数据提取后采用VV和VH双极化方式的后向散射系数(后向散射系数VV、后向散射系数VH)作为雷达特征。共获取适应南方丘陵山区的35类特征变量[18]。

2.3 树种分类特征优选

综合利用多种特征分类,能够充分利用遥感数据信息,提高树种提取精度。但相关性较弱的特征在分类时会造成特征冗余,导致分类精度的降低。特征优选的原则是在确保分类精度的前提下使用较少的特征子集,对特征集进行特征优选能够有效提升分类效率。

2.3.1 分离阈值法的特征优选

分离阈值法(SEaTH)采用贾弗里斯松下距离(JM)[19]对类间可分性进行分析,并确定最佳特征组合。JM距离的计算公式如下:

J=2(1-e-B)。

式中:m1和m2分别为两个类别的特征均值;σ1和σ2分别为两类别特征值的标准差;B为巴氏距离;J为样本间的分离度,J值范围为[0,2],数值越大,代表类间可分性越好。

2.3.2 ReliefF算法的特征优选

式中:A为某个分类特征;C为样本类别;class()为与R不同的样本类别;dA()为2个样本在特征上A的距离;Hj(C)为样本R最邻近的同类样本;Mj(C)为样本R最邻近的不同类样本;p()为某类样本在训练集D中所占比例;m为迭代次数;i为权重更新时当前迭代次数(i=1、2、…、m);k为最邻近样本个数。

2.4 树种分类算法

随机森林算法(RF)是以决策树为基本分类器的集成学习算法,适用于高维遥感数据集,比其它机器学习算法更加高效和低成本[22-23]。RF还可以解决过拟合的问题,适用于时间序列遥感林地植被分类[24];

支持向量机算法(SVM)是将非线性分类问题转化为高维线性问题,并在高维特征空间中构造线性判别函数,同时引入核函数减少运算量;

分类回归树算法(CART)是通过对由测试变量和目标变量构成的训练数据集的循环分析形成二叉树形式的决策树,CART算法生成的决策树没有人工干预,减少了主观误差。

2.5 树种分类精度评价

为评估树种分类的准确性,本研究利用混淆矩阵和验证样本对树种分类结果进行精度验证,精度评价指标为用户精度(UA)、生产者精度(PA)、总体精度(OA)和Kappa系数(KPa)。计算公式如下:

式中:N为总样本数,k为总类别数,Nii为被分到正确类别的样本数,N+i为第i类的真实值,Ni+为第i类的预测值。

3 结果与分析

3.1 树种光学和雷达特征

由表4可知,各树种9—12月归一化植被指数(NDVI)均值,整个时间段内变化趋势基本相同,均呈下降趋势,归一化植被指数值为0.4~0.6,树种分离程度不明显,原因是油茶、杉木、松树都属于常绿树种。表5展示了不同树种在各光谱特征下的像元均值,树种在光谱特征上没有明显差异,仅松树和油茶在比值植被指数和红边叶绿素指数上与其它植被有所区分。

表4 不同时间各树种归一化植被指数

表5 不同树种光谱特征

由图3可知,根据Sentinel-1雷达数据统计不同树种在对应日期VV和VH极化下的树种时序后向散射系数曲线。不同植被全年时序后向散射特征与植被的生长物候和形态相关,所有树种在两种极化下的后向散射系数变化趋势基本相同。VV极化下,其它树种在6月中旬左右后向散射强度明显升高,其后向散射强度全年高于其它植被;1—9月松树后向散射强度持续低于其它植被,杉木后向散射强度在12月呈现同其它植被不同的下降趋势。VH极化下,油茶VH极化后向散射强度全年低于其它植被,2月左右出现明显增幅和减幅,9月末到12月初出现明显减幅,12月松树和杉木呈现同其它植被不同的下降趋势。

图3 树种VV/VH极化时序特征曲线

通过对不同特征变量的叠加分析,可以近似分离出不同树种,雷达数据弥补了光学影像的不足,结合光学和雷达数据可以增强对树种的识别能力和提高分类精度。

3.2 南方丘陵山区树种特征优选结果

本研究分别利用分离阈值法和特征权重算法(ReliefF)对所构建的树种分类特征集进行特征优选。树种分类特征集共171个特征变量,通过试验获取样本的特征均值和标准差,根据公式计算树种之间的分离度,计算单个特征的巴氏距离以及同类特征巴氏距离的均值。同类特征中选取高于均值的特征,完成同类特征优选。

由表6可知,利用特征权重算法(ReliefF)进行特征优选及排序,排名前15和后15的特征,根据重要性对特征进行排序分组,并利用随机森林算法进行分类,共分为7组。

由表7可知,分类精度随着分类特征的增加呈先上升后下降的趋势,第5组分类精度最高,因此选取第5组作为特征权重算法(ReliefF)最优特征集。

3.3 南方丘陵山区树种分类精度评价

由表8可知,方案1仅使用光谱特征、植被指数和水体指数,分类结果总体精度为80.97%。在方案1的基础上分别加入红边特征、雷达特征、地形特征、纹理特征,总体精度分别提高了2.75%、2.26%、3.93%、2.81%。方案6融合所有特征后,总体精度提高了2.35%。方案7在方案6的基础上分别利用分离阈值法与特征权重算法(ReliefF)对所有特征进行优选,不仅取得了更高的精度,而且有效降低了数据量,减少了运算时间。特征优选后的总体精度比方案6分别提高了1.89%和2.01%,其中ReliefF算法优选的结果精度最高,总体精度为85.33%,Kappa系数为0.81。

表6 特征重要性排名

表7 分组情况及分类精度

由图4可知,水体在所有方案中都具有较高的分类精度。方案2在加入红边特征后,不同树种分类精度均有所提高,证明红边特征的加入有助树种提取;方案3加入雷达特征后树种精度提高,因为雷达波段能够穿透冠层获取树种信息,提高光谱特征相似的树种的类间差异;方案4在加入地形特征后,与其它方案相比杉木和油茶的生产者精度提升最大,南方丘陵山地山体阴影严重,不同树种混合分布、相互渗透,很难进行区分,地形特征变量能够有效减少错分概率;方案5加入纹理特征后,树种的分类精度提升没有地形特征高,主要是因为丘陵山区地形破碎、植被树冠茂盛,影像上纹理特征不明显,同时油茶在种植初期会和耕地存在误分。

表8 各方案分类精度

由表9可知,随机森林算法比支持向量机算法和分类回归树算法总体分类精度分别提高了3.99%和4.55%,Kappa系数分别提高了0.05和0.06。结合各地物生产者精度,随机森林算法分类的松树生产者精度比分类回归树算法高了13.75%,油茶生产者精度比支持向量机算法提高了10.34%。

表9 不同分类方法的分类精度

由图5可知,杉木和油茶作为袁州区主要树种,大面积混合分布,3种算法结果的树种分布区域大致一样,但某些区域的油茶和松树的提取结果存在明显差异;但对比不同分类方法的局部分类结果(见图6),随机森林算法与支持向量机算法和分类回归树算法相比,随机森林算法降低了分类结果的破碎度。

4 讨论

准确高效地获取树种的数量和分布信息对于林业的管理和监测至关重要。遥感影像为树种调查提供了有力的工具,Sentinel数据在树种分类上具有广泛的实用性[12,25],Sentinel-2影像的红边、近红外(NIR)和短波红外(SWIR)波段对于植被分类制图具有重要的作用[6,8,26]。本研究结合Sentinel影像和数字高程模型(DEM)数据,对南方丘陵山区的树种识别,结果发现重要性排名前15个特征中,红边特征所占比例最大,红边叶绿素指数在树种分类中重要性最高。

由于光谱特征相似,不同树种间存在不同程度的混淆,仅利用Sentinel-2光谱特征、植被指数、水体指数,树种的识别精度相对较低,将光谱特征与灰度共生矩阵(GLCM)纹理特征结合有效提高了树种分类精度[27]。本研究中纹理特征没有包含在最优特征集中,特征重要性排名中纹理特征处于靠后位置,由于研究区域过大导致细节纹理缺失,同时,树种纹理特征也受研究区地理位置和树种类别影响。不同树种受地形因子影响呈现不同的光谱特征,地形特征可有效降低山体效应带来的光谱差异,减少错分概率,地形特征比物候特征和纹理特征对树种分类更准确有效[15],地形特征在不同特征融合的南方丘陵山区树种分类中起着重要作用。

图4 各地物生产者精度和用户精度

加入雷达特征后,树种分类精度同样有所提升,证实Sentinel-1雷达特征能提高树种间的区分度。本研究只利用了Sentinel-1的雷达后向散射系数,杉木、松树、油茶都属于常绿树种,物候变化不显著,难以利用遥感提取植被物候[28]。由于雷达数据的特性,Sentinel-1数据同样含有丰富的纹理信息,可进一步提高纹理特征对南方丘陵山区树种的分类制图的精度。本研究最高准确率为85.33%,Kappa系数为0.81,仍有提升空间,可利用更有效的辅助数据或先进的深度学习技术,对大面积树种识别监测进行深入研究。

5 结论

以袁州区为研究区,结合Sentinel和数字高程模型(DEM)数据提取树种光谱特征、植被指数、水体指数、红边特征、雷达特征、地形特征和纹理特征,分别采用特征权重算法(Relief)和分离阈值法进行特征优选,通过不同特征组合对比,分析各特征对树种分类精度的影响,利用3种常用树种分类机器学习算法对最优特征集进行树种分类。树种在不同特征上具有一定差异性,可通过特征优选选取树种分类的有效特征,通过特征优选,能够在保证分类精度的同时减少数据冗余,提高运算效率和精度。根据最优特征集分别使用3种机器学习算法(随机森林、支持向量机和回归决策树)对树种进行分类,随机森林算法分类精度最高,总体精度为85.33%。Sentinel影像和DEM数据的结合应用可提高树种分类的准确性,可为南方丘陵山区大范围树种调查监测提供技术方法。

图5 不同分类方法树种分类结果

图6 不同分类方法的局部分类结果

猜你喜欢
树种精度分类
分类算一算
分类讨论求坐标
基于DSPIC33F微处理器的采集精度的提高
数据分析中的分类讨论
常绿树种在新疆的应用现状
教你一招:数的分类
GPS/GLONASS/BDS组合PPP精度分析
城市绿化树种选择,只顾眼前你就输了
一个树种的国家战略
改进的Goldschmidt双精度浮点除法器